對spark中RDD的理解

update at 2016.1.25

RDD作者的論文鏈接

https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf


論文的理解:
spark要解決的問題:
1、有些數據要多次讀寫,磁盤速度很慢
2、沒有交互的界面,不能看到中間結果
適用的應用:
1、機器學習:多個迭代次運算,逼近(優化問題)。==》是不是三維重建中優化也可以用到這個
2、計算結果還要用的:pagerank
解決辦法==》數據抽象成RDD+memory-cache

其中提到finer- grained shared memory abstractions ,那麼coarse又是什麼呢
沒看懂RDD是怎麼實現的

繼續學習






發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章