原创 linux 安裝pip

從pip官網 https://pypi.python.org/pypi/pip 下載pip的源代碼 #解壓 tar -zxvf pip-1.5.5.tar.gz  cd pip-1.5.5 #安裝 python setup.py in

原创 用Apache Kafka構建流數據平臺

http://www.infoq.com/cn/news/2015/03/apache-kafka-stream-data?utm_source=infoq&utm_medium=related_content_link&utm_cam

原创 HDFS HA-Quorum Journal Manager

http://www.binospace.com/index.php/hdfs-ha-quorum-journal-manager/?utm_source=tuicool 1、背景 HDFS HA,即NameNode單點故障問題,一

原创 Storm 配置說明

什麼是Storm? Storm是twitter開源的一套實時數據處理框架,基於該框架你可以通過簡單的編程來實現對數據流的實時處理變換。 Storm的配置文件一般存放在$STORM_HOME/conf下,通常名爲storm.yaml,

原创 unable to import 'smart_open.gcs', disabling that module 錯誤解決

python安裝gensim==3.5.0 版本後,import gensim 報錯unable to import 'smart_open.gcs', disabling that module,網上查詢後解決辦法是pip instal

原创 zookeeper使用和原理探究(一)

zookeeper介紹zookeeper是一個爲分佈式應用提供一致性服務的軟件,它是開源的Hadoop項目中的一個子項目,並且根據google發表的<The Chubby lock service for loosely-coupled

原创 Kafka設計解析(三):Kafka High Availability (下)

http://www.infoq.com/cn/articles/kafka-analysis-part-3?utm_source=infoq&utm_medium=related_content_link&utm_campaign=r

原创 Kafka設計解析(三):Kafka High Availability (下)

http://www.infoq.com/cn/articles/kafka-analysis-part-3?utm_source=infoq&utm_medium=related_content_link&utm_campaign=r

原创 大數據架構:flume-ng+Kafka+Storm+HDFS 實時系統組合

個人觀點:大數據我們都知道hadoop,但並不都是hadoop.我們該如何構建大數據庫項目。對於離線處理,hadoop還是比較適合的,但是對於實時性比較強的,數據量比較大的,我們可以採用Storm,那麼Storm和什麼技術搭配,才能夠做一

原创 Flume-ng+Kafka+storm的學習筆記

http://blog.csdn.net/zxcvg/article/details/18600335/ Flume-ng Flume是一個分佈式、可靠、和高可用的海量日誌採集、聚合和傳輸的系統。        Flume的文檔可以看h

原创 Storm-0.9.0.1安裝部署 指導

http://www.aboutyun.com/thread-6854-1-1.html 可以帶着下面問題來閱讀本文章: 1.Storm只支持什麼傳輸2.通過什麼配置,可以更改Zookeeper默認端口3.Storm UI必須和Storm

原创 Kafka剖析(一):Kafka背景及架構介紹

http://www.infoq.com/cn/articles/kafka-analysis-part-1/ Kafka是由LinkedIn開發的一個分佈式的消息系統,使用Scala編寫,它以可水平擴展和高吞吐率而被廣泛使用。目前越

原创 Storm入門

http://ifeve.com/getting-started-with-storm-1/ 點贊 收藏 分享 文章舉報 beyondlpf 發佈了65 篇原創文章 · 獲贊

原创 zookeeper原理(轉)

ZooKeeper是一個分佈式的,開放源碼的分佈式應用程序協調服務,它包含一個簡單的原語集,分佈式應用程序可以基於它實現同步服務,配置維護和命名服務等。Zookeeper是hadoop的一個子項目,其發展歷程無需贅述。在分佈式應用中,由

原创 大數據架構:flume-ng+Kafka+Storm+HDFS 實時系統組合

http://www.aboutyun.com/thread-6855-1-1.html 個人觀點:大數據我們都知道hadoop,但並不都是hadoop.我們該如何構建大數據庫項目。對於離線處理,hadoop還是比較適合的,但是對於實時