原创 Hadoop和Spark集羣中某臺工作機崩潰後如何重啓?

Hadoop和Spark集羣中某臺工作機崩潰後如何重啓?工作機是hadoop集羣的datanode,Spark集羣的worker。只需要在機器重啓後,一、連接hadoop集羣bin/hadoop-daemon.sh start datano

原创 Spark圖處理GraphX學習筆記!

Spark圖處理GraphX學習筆記!一、什麼是GraphX?Graphx利用了Spark這樣了一個並行處理框架來實現了圖上的一些可並行化執行的算法。算法是否能夠並行化與Spark本身無關算法並行化與否的本身,需要通過數學來證明已經證明的可

原创 hadoop hdfs dfsadmin 介紹

今天聽了王家林的hadoop的集羣管理工具dfsadmin介紹,也實際操作了下,不過沒找到感覺,不知道是自己腦子空白還是怎麼的,倒是下面這篇文章還靠譜。一、hdfs dfsadmin -safemode 安全模式 NameNode在啓動的時

原创 Spark的shuffle剖析!

Spark的shuffle剖析!一、什麼是shuffle?shuffle是洗牌的意思,總的來說,就是分散在各個節點的數據,在經過計算之後,需要重新將數據進行分配,以進行下一步的計算。比如wordcount,顯示在3臺節點上,分別計算了spa

原创 parameter server是什麼?

parameter server是什麼?最近PMP學友會舉辦了個活動,就是阿里巴巴集團的大數據工程師介紹parameter server。只是攢3個PDU,但是一直想往大數據方向發展,這個不能不知。百度了一下,有了點眉目,以下摘自幾個網絡文

原创 Spark streaming和Storm比較,一圖勝千言

Spark streaming和Storm比較,一圖勝千言