pyspark dataframe 去重

pyspark dataframe 去重

兩種去重,一種是整行每一項完全相同去除重複行,另一種是某一列相同去除重複行。

整行去重

dataframe1 = dataframe1.distinct()

某一列或者多列相同的去除重複

df = df.select("course_id", "user_id", "course_name")
# 單列爲標準
df1 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id"]])
# 多列爲標準
df2 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id", "course_name"]])

原文鏈接:https://blog.csdn.net/weixin_42864239/article/details/99672657

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章