原创 Hadoop和Spark集羣中某臺工作機崩潰後如何重啓?
Hadoop和Spark集羣中某臺工作機崩潰後如何重啓?工作機是hadoop集羣的datanode,Spark集羣的worker。只需要在機器重啓後,一、連接hadoop集羣bin/hadoop-daemon.sh start datano
原创 Spark圖處理GraphX學習筆記!
Spark圖處理GraphX學習筆記!一、什麼是GraphX?Graphx利用了Spark這樣了一個並行處理框架來實現了圖上的一些可並行化執行的算法。算法是否能夠並行化與Spark本身無關算法並行化與否的本身,需要通過數學來證明已經證明的可
原创 hadoop hdfs dfsadmin 介紹
今天聽了王家林的hadoop的集羣管理工具dfsadmin介紹,也實際操作了下,不過沒找到感覺,不知道是自己腦子空白還是怎麼的,倒是下面這篇文章還靠譜。一、hdfs dfsadmin -safemode 安全模式 NameNode在啓動的時
原创 Spark的shuffle剖析!
Spark的shuffle剖析!一、什麼是shuffle?shuffle是洗牌的意思,總的來說,就是分散在各個節點的數據,在經過計算之後,需要重新將數據進行分配,以進行下一步的計算。比如wordcount,顯示在3臺節點上,分別計算了spa
原创 parameter server是什麼?
parameter server是什麼?最近PMP學友會舉辦了個活動,就是阿里巴巴集團的大數據工程師介紹parameter server。只是攢3個PDU,但是一直想往大數據方向發展,這個不能不知。百度了一下,有了點眉目,以下摘自幾個網絡文
原创 Spark streaming和Storm比較,一圖勝千言
Spark streaming和Storm比較,一圖勝千言