Hadoop面試和學習小結[2013版]

[2013 UPDATE]
Hadoop 2.0轉型基本無可阻擋，今年下半年要正式發佈了，它的出現讓大家知識體系都
要更新了。Hadoop1.0搞了8年才發佈，2.0不到2年就出來了。2.0的核心是YARN，它的
誕生還是有趣的故事
http://tech.qq.com/a/20130703/015928.htm

YARN介紹
http://hortonworks.com/hadoop/yarn/
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-ya

Hadoop 生態系統
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g

SQL on Hadoop
http://gigaom.com/2013/02/21/sql-is-whats-next-for-hadoop-heres

Hadoop Summit
http://hadoopsummit.org/san-jose/

#######################
隨着大數據的盛行，Hadoop也流行起來。之前面過一些公司，包括開發Hadoop
:如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop
的除了Google，數不勝數了
這塊還是機會挺多的，我就把我知道的給大家分享一下。

書籍和Paper
<Hadoop: The Definitive Guide>: 裏面內容非常好，既有高屋建瓴，又有微觀把握，
基本適用於0.18-0.20版本。比如mapreduce各個子階段，Join在裏面也有代碼實現，
第三版
http://it-ebooks.info/book/635/
https://github.com/tomwhite/hadoop-book
Google的三輛馬車，GFS, MapReduce, BigTable
Google的新三輛馬車：Caffeine、Pregel、Dremel
http://blog.mikiobraun.de/2013/02/big-data-beyond-map-reduce-go
SIGMOD, VLDB最新

入門：
知道MapReduce大致流程，Map, Shuffle, Reduce
知道Combiner, partition作用，設置Compression
搭建Hadoop集羣，Master/Slave 都運行那些服務 NameNode, DataNode, JobTracker,
TaskTracker
Pig, Hive 簡單語法，UDF寫法
http://www.hadoopwizard.com/when-to-use-pig-latin-versus-hive-s
http://ofps.oreilly.com/titles/9781449302641/index.html
http://www.slideshare.net/zshao
http://www.cloudera.com/content/cloudera/en/resources/library/t
http://i.stanford.edu/~ragho/hive-icde2010.pdf
http://www.slideshare.net/ragho/hive-icde-2010
Hadoop 2.0新知識; HDFS2 HA，snapshot, ResourceManager,ApplicationsManager,
NodeManager

進階:
HDFS，Replica如何定位
http://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf
Hadoop 參數調優，性能優化，Cluster level: JVM, Map/Reduce Slots, Job level:
Reducer #,
Memory, use Combiner? use Compression?
http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapr
http://www.slideshare.net/ydn/hadoop-summit-2010-tuning-hadoop-

HBase 搭建，region server, key如何選取
http://hbase.apache.org/book.html
數據傾斜怎麼辦？
http://www.tbdata.org/archives/2109

算法：
字典同位詞
翻譯SQL語句 select count(x) from a group by b;
http://blog.cloudera.com/wp-content/uploads/2010/01/5-MapReduce

Blog
關注Cloudera, Hortonworks
http://hortonworks.com/blog/
http://blog.cloudera.com/blog/
http://dongxicheng.org/
http://cloud21.iteye.com/blog/607175

相關係統
數據流系統: Storm(Twitter), S4(Yahoo)
https://github.com/nathanmarz/storm/wiki/Tutorial
內存計算系統: Spark and Shark (Berkeley）
http://www.slideshare.net/Hadoop_Summit/spark-and-shark
交互式實時系統：Cloudera Impala， Apache Drill (Dremel開源實現），Tez (
Hortonworks)

公司列表：
http://wiki.apache.org/hadoop/PoweredBy

其他
- 這個領域還是印度人佔主體，Hortonworks挺喜歡開源，開發節奏很快，cloudera的
拳頭產品Enterprise manager是收費的，估計最被H逼着要開源了。
- 開源讓這個世界更美好，Hadoop進化目標：開發部署傻瓜化，性能更強勁，最後爲程
序員標配。
- 核心都是被寡頭控制的，記得一邊文章說一流的公司賣標準，二流的公司賣技術，三
流的公司賣產品，H和C有最多的committer，自然就影響着整個Hadoop社區。
- 技術就是日新月異，還是多看看那些公司的博客，關注感興趣的新產品，比如
hortonworks.com/hadoop/ambari，我做過跟這個類似。
- 在Hadoop系統中從頭裸寫MapReduce不現實了，ETL基本靠Hive,Pig, 之前還用過
Scalding，
https://github.com/twitter/scalding
- MapReduce並不是最優的，僅適合批處理，很多問題：JVM的啓動overhead很大，小
Job更明顯，數據必須先存儲，不適合迭代計算，延遲高。DB學術圈討論很久tradeoff
了，這片MapReduce: 一個巨大的倒退

http://blog.sina.com.cn/s/blog_62a9902f0100gs4q.html

http://www.mitbbs.com/article_t/JobHunting/32058103.html