原创 Spark Streaming運行架構以及代碼詳解

1. 運行架構 spark Streaming相對其他流處理系統最大的優勢在於流處理引擎和數據處理在同一軟件棧,其中Spark Streaming功能主要包括流處理引擎的流數據接收與存儲以及批處理作業的生成與管理,而Spark Cor

原创 Spark基礎入門

最近在研究spark,spark現在可以算是最流行的大數據計算框架啦,mr只能進行離線計算的批處理,presto,implala進行交互式查詢,storm只能進行流計算,而spark恰恰集成了這些。我這篇文章只進行基礎入門的介紹(系

原创 Hadoop之MapReduce的原理學習

前言 雖然mapreduce幾乎已經被淘汰,但是他的原理機制還是需要去了解深挖的,他的分而治之的理念差不多是貫通整個大數據的框架的,spark,flink都借鑑了其分而治之的理念,下面是我總結的mapReduce的模型,結構,以及原理

原创 資源調度框架YARN解析

Yarn作爲Hadoop的資源調度框架,承擔着擴展Hadoop的重要責任,我們配置Spark時就使用了Spark on Yarn的配置方法,這裏簡單介紹一些YARN的工作原理,有助於理解整個系統處理作業的過程。 在配置好的Hadoop

原创 Zookeeper原理解析

數據一致性原則:在一個分佈式數據庫系統中,如果各節點的初始狀態一致,每個節點都執行相同的操作序列,那麼他們最後能得到一個一致的狀態(最終一致性) 所以客戶端可以獲取最近一段時間數據,不一定是最新的(最終一致性) Zookeeper是分

原创 HiveSql(未更新完)

create table if not exists brand_dimension (bid STRING, category STRING, brand STRING) ROW FORMAT DELIMITED FIELDS TE

原创 分佈式存儲HBASE原理學習

HBase定義 HBase 是一個高可靠、高性能、面向列、可伸縮的分佈式存儲系統,利用Hbase技術可在廉價PC Server上搭建 大規模結構化存儲集羣。 HBase 是Google Bigtable 的開源實現,與Google B

原创 HADOOP之HDFS學習

HDFS原理以及讀寫流程 最近從零開始學習大數據,所以也開始學習他的一些框架,這是我所理解的hdfs [ ] 1.HDFS系統架構 2.三個角色 Client:客戶端,系統使用者,調用HDFS API操作文件;與NN交互獲

原创 HBASE常見問題

HBase搭建過程中需要注意什麼 是否使用外部ZooKeeper,這個一般使用Hadoop集羣的ZooKeeper集羣即可。 HBASE_MANAGES_ZK=false hbase-site.sh的配置 hbase.zookeepe

原创 消息中間件kafka學習總結

消息中間件kafka學習總結 Kafka簡介 Kafka是一種分佈式的,基於發佈/訂閱的消息系統。 消息中間件優點 1.解耦:在開始開發時,可以將產出的不一定明確的數據放入消息系統,這樣可以保證最大程度的解耦和性,如果事soa或者微服