原创 大數據理論體系總結--數據倉庫管理與全鏈路數據體系

前言   就這樣,大數據領域蓬勃發展了好幾年,有很多夥伴執迷於技術,成爲了分佈式計算與存儲的領域專家。也有很多夥伴執迷於數據,成爲了行業的數據研發專家。當然還有很多小夥伴,熱衷於工具系統開發,成爲了數據技術專家。那麼我們回過頭來考慮,什麼是

原创 Hive metastore源碼閱讀(三)

  上次寫了hive metastore的partition的生命週期,但是簡略概括了下alter_partition的操作,這裏補一下alter_partition,因爲隨着項目的深入,發現它涉及的地方較多,比如insert into 時

原创 項目研發流程及管理之我見

隨着工作年限的增長,我們從一開始負責一個功能,再到負責一個模塊的數據字典及框架設計。再到負責整個系統的需求評審及架構設計。這一路見證着程序猿的成長。但當我們逐步成爲一名架構師,或是一名項目管理人員時,會發現一個項目的成功,會牽扯到各式各樣的

原创 Netty的TCP粘包/拆包(源碼二)

假設客戶端分別發送了兩個數據包D1和D2給服務器,由於服務器端一次讀取到的字節數是不確定的,所以可能發生四種情況:   1、服務端分兩次讀取到了兩個獨立的數據包,分別是D1和D2,沒有粘包和拆包。   2、服務端一次接收到了兩個數據包,D1

原创 Hadoop源碼分類概要整理

  最近突然覺得, 很多掌握的都還是很淺的原理,需要更深入細粒度去了解整個分佈式系統的運轉機制。於是。。開始作死而又作死而又作死的源碼之旅。   Hadoop包的功能總共有下列幾類:   tool:提供一些命令行工具,如DistCp,arc

原创 Spark Netty與Jetty (源碼閱讀十一)

  spark呢,對Netty API又做了一層封裝,那麼Netty是什麼呢~是個鬼。它基於NIO的服務端客戶端框架,具體不再說了,下面開始。   創建了一個線程工廠,生成的線程都給定一個前綴名。      像一般的netty框架一樣,創建

原创 NIO源碼閱讀

  自己對着源碼敲一遍練習,寫上註釋。發現NIO編程難度好高啊。。雖然很複雜,但是NIO編程的有點還是很多:   1、客戶端發起的連接操作是異步的,可以通過在多路複用器註冊OP_CONNECTION等待後續結果,不需要像BIO的客戶端一樣被

原创 Spark Shuffle數據處理過程與部分調優(源碼閱讀七)

  shuffle。。。相當重要,爲什麼咩,因爲shuffle的性能優劣直接決定了整個計算引擎的性能和吞吐量。相比於Hadoop的MapReduce,可以看到Spark提供多種計算結果處理方式,對shuffle過程進行了優化。   那麼我們

原创 阿里入職一個月思考(隨筆)

  最近沒怎麼寫技術博客了。。原因是,跳到了曾經期望的公司,還在做技術儲備。。。如今入職一個月了,已經完全進入狀態。同時,也帶來更多思考與感悟。   我記得第一面,是支付寶的架構師。與他聊了很多關於技術上,性能上,架構與業務上的知識。他對我

原创 Hive metastore整體代碼分析及詳解

  從上一篇對Hive metastore表結構的簡要分析中,我再根據數據設計的實體對象,再進行整個代碼結構的總結。那麼我們先打開metadata的目錄,其目錄結構:   可以看到,整個hivemeta的目錄包含metastore(客戶端

原创 hiveql筆記(一)

1、創建表 create table if not exists mydb.employees{   name  String COMMENT 'Employee name',   salary  FLOAT COMMENT 'Empoly

原创 Spark常用函數(源碼閱讀六)

  源碼層面整理下我們常用的操作RDD數據處理與分析的函數,從而能更好的應用於工作中。       連接Hbase,讀取hbase的過程,首先代碼如下: def tableInitByTime(sc : SparkContext,tabl

原创 大數據生涯感悟

  不知不覺,畢業一年半了,從實習開始接觸大數據技術。那時懵懂的我,不對,應該說懵逼的我在想,臥槽,這是啥這麼牛逼,我都不會啊。。。啥都不會完蛋了。。即便現在也是這樣認爲= =   今年還是有很多變故的,不過絲毫無法阻擋我對技術的熱情,這種

原创 Spark數據傳輸及ShuffleClient(源碼閱讀五)

  我們都知道Spark的每個task運行在不同的服務器節點上,map輸出的結果直接存儲到map任務所在服務器的存儲體系中,reduce任務有可能不在同一臺機器上運行,所以需要遠程將多個map任務的中間結果fetch過來。那麼我們就來學習下

原创 Hive metastore源碼閱讀(一)

  不要問我爲什麼,因爲愛,哈哈哈哈。。。進入正題,最近做項目順帶學習了下hive metastore的源碼,進行下知識總結。   hive metastore的整體架構如圖:      一、組成結構:   如圖我們可以看到,hive me