Spark中普通集合與RDD算子的zip()拉鍊有什麼區別

集合中的zip:
如果兩個集合的元素個數不相等,那麼會將同等數量的數據進行拉鍊,多餘的數據省略不用

RDD算子的zip:
該操作可以將兩個RDD中的元素,以鍵值對的形式進行合併。其中,鍵值對中的Key爲第1個RDD中的元素,vaue爲第2個RDD中的元素

不同於集合中的zip()方法,將兩個RDD組合成 Key/value開式的RDD,這裏默認兩個RDD的partition數量以及元素數量都相同,否則會拋出異常。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章