Hadoop 2.0轉型基本無可阻擋,今年下半年要正式發佈了,它的出現讓大家知識體系都
要更新了。Hadoop1.0搞了8年才發佈,2.0不到2年就出來了。2.0的核心是YARN,它的
誕生還是有趣的故事
http://tech.qq.com/a/20130703/015928.htm
YARN介紹
http://hortonworks.com/hadoop/yarn/
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-ya
Hadoop 生態系統
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
SQL on Hadoop
http://gigaom.com/2013/02/21/sql-is-whats-next-for-hadoop-heres
Hadoop Summit
http://hadoopsummit.org/san-jose/
#######################
隨着大數據的盛行,Hadoop也流行起來。之前面過一些公司,包括開發Hadoop
:如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop
的除了Google,數不勝數了
這塊還是機會挺多的,我就把我知道的給大家分享一下。
書籍和Paper
<Hadoop: The Definitive Guide>: 裏面內容非常好,既有高屋建瓴,又有微觀把握,
基本適用於0.18-0.20版本。比如mapreduce各個子階段,Join在裏面也有代碼實現,
第三版
http://it-ebooks.info/book/635/
https://github.com/tomwhite/hadoop-book
Google的三輛馬車,GFS, MapReduce, BigTable
Google的新三輛馬車:Caffeine、Pregel、Dremel
http://blog.mikiobraun.de/2013/02/big-data-beyond-map-reduce-go
SIGMOD, VLDB最新
入門:
知道MapReduce大致流程,Map, Shuffle, Reduce
知道Combiner, partition作用,設置Compression
搭建Hadoop集羣,Master/Slave 都運行那些服務 NameNode, DataNode, JobTracker,
TaskTracker
Pig, Hive 簡單語法,UDF寫法
http://www.hadoopwizard.com/when-to-use-pig-latin-versus-hive-s
http://ofps.oreilly.com/titles/9781449302641/index.html
http://www.slideshare.net/zshao
http://www.cloudera.com/content/cloudera/en/resources/library/t
http://i.stanford.edu/~ragho/hive-icde2010.pdf
http://www.slideshare.net/ragho/hive-icde-2010
Hadoop 2.0新知識; HDFS2 HA,snapshot, ResourceManager,ApplicationsManager,
NodeManager
進階:
HDFS,Replica如何定位
http://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf
Hadoop 參數調優,性能優化,Cluster level: JVM, Map/Reduce Slots, Job level:
Reducer #,
Memory, use Combiner? use Compression?
http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapr
http://www.slideshare.net/ydn/hadoop-summit-2010-tuning-hadoop-
HBase 搭建,region server, key如何選取
http://hbase.apache.org/book.html
數據傾斜怎麼辦?
http://www.tbdata.org/archives/2109
算法:
字典同位詞
翻譯SQL語句 select count(x) from a group by b;
http://blog.cloudera.com/wp-content/uploads/2010/01/5-MapReduce
Blog
關注Cloudera, Hortonworks
http://hortonworks.com/blog/
http://blog.cloudera.com/blog/
http://dongxicheng.org/
http://cloud21.iteye.com/blog/607175
相關係統
數據流系統: Storm(Twitter), S4(Yahoo)
https://github.com/nathanmarz/storm/wiki/Tutorial
內存計算系統: Spark and Shark (Berkeley)
http://www.slideshare.net/Hadoop_Summit/spark-and-shark
交互式實時系統:Cloudera Impala, Apache Drill (Dremel開源實現),Tez (
Hortonworks)
公司列表:
http://wiki.apache.org/hadoop/PoweredBy
其他
- 這個領域還是印度人佔主體,Hortonworks挺喜歡開源,開發節奏很快,cloudera的
拳頭產品Enterprise manager是收費的,估計最被H逼着要開源了。
- 開源讓這個世界更美好,Hadoop進化目標:開發部署傻瓜化,性能更強勁,最後爲程
序員標配。
- 核心都是被寡頭控制的,記得一邊文章說一流的公司賣標準,二流的公司賣技術,三
流的公司賣產品,H和C有最多的committer,自然就影響着整個Hadoop社區。
- 技術就是日新月異,還是多看看那些公司的博客,關注感興趣的新產品,比如
hortonworks.com/hadoop/ambari,我做過跟這個類似。
- 在Hadoop系統中從頭裸寫MapReduce不現實了,ETL基本靠Hive,Pig, 之前還用過
Scalding,
https://github.com/twitter/scalding
- MapReduce並不是最優的,僅適合批處理,很多問題:JVM的啓動overhead很大,小
Job更明顯,數據必須先存儲,不適合迭代計算,延遲高。DB學術圈討論很久tradeoff
了,這片MapReduce: 一個巨大的倒退
http://blog.sina.com.cn/s/blog_62a9902f0100gs4q.html