原创 Linux 的 IO 隔離

跟內存管理那部分複雜度類似, IO 的資源隔離要講清楚也是比較麻煩的。這部分內容都是這樣,配置起來簡單,但是要理解清楚確沒那麼簡單。這次是跟 Linux 內核的 IO 實現有關係。對於 IO 的速度限制,實現思路跟 CPU 和內存都

原创 Compile Hadoop in Docker container

https://github.com/kiwenlau/compile-hadoop FROM ubuntu:14.04       MAINTAINER kiwenlau <[email protected]>    

原创 國內連接maven官方的倉庫

國內連接maven官方的倉庫更新依賴庫,網速一般很慢,收集一些國內快速的maven倉庫鏡像以備用。 最新更新:2016年11月11日 18:05:40 阿里雲提供Maven私服,我把配置文件貼一下,自己放在maven的conf下就行,

原创 hadoop(二):hdfs HA原理

  早期的hadoop版本,NN是HDFS集羣的單點故障點,每一個集羣只有一個NN,如果這個機器或進程不可用,整個集羣就無法使用。爲了解決這個問題,出現了一堆針對HDFS HA的解決方案(如:Linux HA, VMware FT, s

原创 ETCD是什麼

1. ETCD是什麼 ETCD是用於共享配置和服務發現的分佈式,一致性的KV存儲系統。該項目目前最新穩定版本爲2.3.0. 具體信息請參考[項目首頁]和[Github]。ETCD是CoreOS公司發起的一個開源項目,授權協議爲Apac

原创 spark shuffle mapreduce shuffle

Background 在MapReduce框架中,shuffle是連接Map和Reduce之間的橋樑,Map的輸出要用到Reduce中必須經過shuffle這個環節,shuffle的性能高低直接影響了整個程序的性能和吞吐量。Spark

原创 我所經歷的大數據平臺發展史(二):非互聯網時代 • 下篇

本文是松子(李博源)的大數據平臺發展史系列文章的第二篇(共四篇),本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統與非傳統兩個行業。是對數據平臺發展的一個回憶,對非互聯網、互聯網,從數據平臺的用戶角度、數據架構演進、模型等進行

原创 Lambda vs Kappa

Lambda 架構     Lambda 架構由Storm的作者Nathan Marz提出,其設計目的在於提供一個能滿足大數據系統關鍵特性的架構,包括高容錯、低延遲、可擴展等。其整合離線計算與實時計算,融合不可變性、讀寫分離和複雜性隔離

原创 我所經歷的大數據平臺發展史(三):互聯網時代 • 上篇

本文是松子(李博源)的大數據平臺發展史系列文章的第二篇(共四篇),本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統與非傳統兩個行業。是對數據平臺發展的一個回憶,對非互聯網、互聯網,從數據平臺的用戶角度、數據架構演進、模型等進行

原创 Compile and build specific Hadoop source code branch using Azure VM

Sometimes you may want to test a Hadoop feature that is available in a specific branch that is not available as a bina

原创 hadoop(三):hdfs 機架感知

client 向 Active NN 發送寫請求時,NN爲這些數據分配DN地址,HDFS文件塊副本的放置對於系統整體的可靠性和性能有關鍵性影響。一個簡單但非優化的副本放置策略是,把副 本分別放在不同機架,甚至不同IDC,這樣可以防止整個

原创 數據工程的崛起

2011的時候年我以商業智能工程師的身份加入臉書(Facebook),但在13年離開時我的職位卻是數據工程師。這期間我並沒有升職也沒有被調到一個新職位上,我只是意識到我們的工作已經超越了傳統商業智能的範疇,並且我們爲自己創造的這個角色屬

原创 cenos 7 mac U 盤

Centos7 下載地址: http://101.110.118.47/isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1611.iso 1. 掛載U盤

原创 Spark Streaming 流計算優化記錄(3)-控制流量與join的地點

4. 流量控制好像之前說過”一下子從Kafka拉取幾十萬條消息進行處理”的事情, 其實醬紫是不對滴, 飯要一口一口吃, 一下子吃太多, 會導致還沒吃成胖子就已經被撐死的. 所以我們要對爲了做壓力測試而早已在Kafka中囤積多時的幾十萬條消

原创 hadoop(一):深度剖析hdfs原理

在配置hbase集羣將 hdfs 掛接到其它鏡像盤時,有不少困惑的地方,結合以前的資料再次學習;  大數據底層技術的三大基石起源於Google在2006年之前的三篇論文GFS、Map-Reduce、 Bigtable,其中GFS、M