好程序員技術解析Hadoop和spark的性能比較

原創

愛是反覆

2019-06-21 13:13

好程序員技術解析 Hadoop和spark的性能比較，大數據培訓一度受到廣大 IT愛好者的追捧，成爲最熱門的培訓學科！前景無需多述，高薪就業，職場一片坦途！今天好程序員就爲大家講解下關於大數據的知識要點。問：

Hadoop和spark的性能有何區別。

　　如果說 Hadoop是一家大型包工隊，我們可以通過它組織人員進行合作，搬磚建造房屋，弊端在於速度較慢。

　　Spark是另一家包工隊，成立時間較晚，但是他們搬磚更爲靈活，可以實時交互地蓋房子，工作效率比 Hadoop快得多。

　　當 Hadoop開始升級，指定調度專家YARN調度工人。Spark從多個倉庫搬磚(HDFS，Cassandra,S3，HBase)，還允許不同專家如YARN/ MESOS對人員和任務進行調度。

　　當然， Spark和Hadoop團隊進行合作，問題變得更加複雜。作爲兩個獨立的包工隊，二者都有着各自的優缺點和特定的業務用例。

　　因此，我們說 Hadoop和spark的性能區別在於：鄭州不孕不育醫院：http://byby.zztjyy.com/yiyuanzaixian/zztjyy//

　　Spark在內存中運行速度比Hadoop快100倍，在磁盤上運行速度快10倍。衆所周知，Spark在數量只有十分之一的機器上，對100TB數據進行排序的速度比Hadoop MapReduce快速3倍。此外，Spark在機器學習應用中的速度同樣更快，例如Naive Bayes和k-means。

　　Spark性能之所以比Hadoop更優，原因在於每次運行 MapReduce任務時，Spark都不會受到輸入輸出的限制。事實證明，應用程序的速度要快得多。再有 Spark的DAG可以在各個步驟之間進行優化。Hadoop在MapReduce步驟之間沒有任何週期性連接，這意味着在該級別不會發生性能調整。但是，如果Spark與其他共享服務在YARN上運行，則性能可能會降低並導致RAM開銷內存泄漏。出於這個原因，如果用戶有批處理的訴求，Hadoop被認爲是更高效的系統。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

好程序員技術解析Hadoop和spark的性能比較

mongodb的安裝和啓動方法

會議記錄不完整，電腦錄音轉文字幫你實現

mongodb集羣節點故障的切換方法

Spark Streaming的優化之路—從Receiver到Direct模式

好程序員技術解析Hadoop和spark的性能比較

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結