好程序員技術解析Hadoop和spark的性能比較

好程序員技術解析   Hadoop和spark的性能比較, 大數據 培訓一度受到廣大 IT愛好者的追捧,成爲最熱門的培訓學科!前景無需多述,高薪就業,職場一片坦途!今天好程序員就爲大家講解下關於大數據的知識要點。問:

Hadoop和spark的性能 有何區別 

  如果說 Hadoop是一家大型包工隊, 我們可以通過它組織人員進行合作,搬磚建造房屋,弊端在於速度較慢。

  Spark是另一家包工隊,成立 時間較晚, 但是他們搬磚 更爲靈活 ,可以實時交互地蓋房子, 工作效率比 Hadoop快得多。

   當 Hadoop開始升級,指定調度專家YARN調度工人。Spark從多個倉庫搬磚(HDFS,Cassandra,S3,HBase),還允許不同專家如YARN/ MESOS對人員和任務進行調度。

   當然, Spark和Hadoop團隊 進行 合作,問題變得更加複雜。 作爲兩個 獨立的包工隊, 二者 都有着各自的優缺點和特定的業務用例。

   因此,我們說 Hadoop和spark的性能 區別在於:          鄭州不孕不育醫院:http://byby.zztjyy.com/yiyuanzaixian/zztjyy//

  Spark在內存中運行速度比Hadoop快100倍,在磁盤上運行速度快10倍。衆所周知,Spark在數量只有十分之一的機器上,對100TB數據進行排序的速度比Hadoop MapReduce快速3倍。此外,Spark在機器學習應用中的速度同樣更快,例如Naive Bayes和k-means。

  Spark性能之所以比Hadoop更優,原因 在於 每次運行 MapReduce任務時,Spark都不會受到輸入輸出的限制。事實證明,應用程序的速度要快得多。 再有 Spark的DAG可以在各個步驟之間進行優化。Hadoop在MapReduce步驟之間沒有任何週期性連接,這意味着在該級別不會發生性能調整。但是,如果Spark與其他共享服務在YARN上運行,則性能可能會降低並導致RAM開銷內存泄漏。出於這個原因,如果用戶有批處理的訴求,Hadoop被認爲是更高效的系統。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章