spark實現用窗口函數進行去重計數的功能

//collect_set去除重複元素;collect_list不去除重複元素
df.withColumn(
   "new_col_name",
   size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))
)
//同理在hive中也可以採用這種利用size和collect_set的形式實現用窗口函數進行去重計數的功能
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章