原创 大數據理論體系總結--數據倉庫管理與全鏈路數據體系
前言 就這樣,大數據領域蓬勃發展了好幾年,有很多夥伴執迷於技術,成爲了分佈式計算與存儲的領域專家。也有很多夥伴執迷於數據,成爲了行業的數據研發專家。當然還有很多小夥伴,熱衷於工具系統開發,成爲了數據技術專家。那麼我們回過頭來考慮,什麼是
原创 Hive metastore源碼閱讀(三)
上次寫了hive metastore的partition的生命週期,但是簡略概括了下alter_partition的操作,這裏補一下alter_partition,因爲隨着項目的深入,發現它涉及的地方較多,比如insert into 時
原创 項目研發流程及管理之我見
隨着工作年限的增長,我們從一開始負責一個功能,再到負責一個模塊的數據字典及框架設計。再到負責整個系統的需求評審及架構設計。這一路見證着程序猿的成長。但當我們逐步成爲一名架構師,或是一名項目管理人員時,會發現一個項目的成功,會牽扯到各式各樣的
原创 Netty的TCP粘包/拆包(源碼二)
假設客戶端分別發送了兩個數據包D1和D2給服務器,由於服務器端一次讀取到的字節數是不確定的,所以可能發生四種情況: 1、服務端分兩次讀取到了兩個獨立的數據包,分別是D1和D2,沒有粘包和拆包。 2、服務端一次接收到了兩個數據包,D1
原创 Hadoop源碼分類概要整理
最近突然覺得, 很多掌握的都還是很淺的原理,需要更深入細粒度去了解整個分佈式系統的運轉機制。於是。。開始作死而又作死而又作死的源碼之旅。 Hadoop包的功能總共有下列幾類: tool:提供一些命令行工具,如DistCp,arc
原创 Spark Netty與Jetty (源碼閱讀十一)
spark呢,對Netty API又做了一層封裝,那麼Netty是什麼呢~是個鬼。它基於NIO的服務端客戶端框架,具體不再說了,下面開始。 創建了一個線程工廠,生成的線程都給定一個前綴名。 像一般的netty框架一樣,創建
原创 NIO源碼閱讀
自己對着源碼敲一遍練習,寫上註釋。發現NIO編程難度好高啊。。雖然很複雜,但是NIO編程的有點還是很多: 1、客戶端發起的連接操作是異步的,可以通過在多路複用器註冊OP_CONNECTION等待後續結果,不需要像BIO的客戶端一樣被
原创 Spark Shuffle數據處理過程與部分調優(源碼閱讀七)
shuffle。。。相當重要,爲什麼咩,因爲shuffle的性能優劣直接決定了整個計算引擎的性能和吞吐量。相比於Hadoop的MapReduce,可以看到Spark提供多種計算結果處理方式,對shuffle過程進行了優化。 那麼我們
原创 阿里入職一個月思考(隨筆)
最近沒怎麼寫技術博客了。。原因是,跳到了曾經期望的公司,還在做技術儲備。。。如今入職一個月了,已經完全進入狀態。同時,也帶來更多思考與感悟。 我記得第一面,是支付寶的架構師。與他聊了很多關於技術上,性能上,架構與業務上的知識。他對我
原创 Hive metastore整體代碼分析及詳解
從上一篇對Hive metastore表結構的簡要分析中,我再根據數據設計的實體對象,再進行整個代碼結構的總結。那麼我們先打開metadata的目錄,其目錄結構: 可以看到,整個hivemeta的目錄包含metastore(客戶端
原创 hiveql筆記(一)
1、創建表 create table if not exists mydb.employees{ name String COMMENT 'Employee name', salary FLOAT COMMENT 'Empoly
原创 Spark常用函數(源碼閱讀六)
源碼層面整理下我們常用的操作RDD數據處理與分析的函數,從而能更好的應用於工作中。 連接Hbase,讀取hbase的過程,首先代碼如下: def tableInitByTime(sc : SparkContext,tabl
原创 大數據生涯感悟
不知不覺,畢業一年半了,從實習開始接觸大數據技術。那時懵懂的我,不對,應該說懵逼的我在想,臥槽,這是啥這麼牛逼,我都不會啊。。。啥都不會完蛋了。。即便現在也是這樣認爲= = 今年還是有很多變故的,不過絲毫無法阻擋我對技術的熱情,這種
原创 Spark數據傳輸及ShuffleClient(源碼閱讀五)
我們都知道Spark的每個task運行在不同的服務器節點上,map輸出的結果直接存儲到map任務所在服務器的存儲體系中,reduce任務有可能不在同一臺機器上運行,所以需要遠程將多個map任務的中間結果fetch過來。那麼我們就來學習下
原创 Hive metastore源碼閱讀(一)
不要問我爲什麼,因爲愛,哈哈哈哈。。。進入正題,最近做項目順帶學習了下hive metastore的源碼,進行下知識總結。 hive metastore的整體架構如圖: 一、組成結構: 如圖我們可以看到,hive me