Hadoop面試和學習小結[2013版]

[2013 UPDATE]
Hadoop 2.0轉型基本無可阻擋,今年下半年要正式發佈了,它的出現讓大家知識體系都
要更新了。Hadoop1.0搞了8年才發佈,2.0不到2年就出來了。2.0的核心是YARN,它的
誕生還是有趣的故事
http://tech.qq.com/a/20130703/015928.htm

YARN介紹
http://hortonworks.com/hadoop/yarn/
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-ya

Hadoop 生態系統
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g

SQL on Hadoop
http://gigaom.com/2013/02/21/sql-is-whats-next-for-hadoop-heres

Hadoop Summit
http://hadoopsummit.org/san-jose/

#######################
隨着大數據的盛行,Hadoop也流行起來。之前面過一些公司,包括開發Hadoop
:如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop
的除了Google,數不勝數了
這塊還是機會挺多的,我就把我知道的給大家分享一下。

書籍和Paper
<Hadoop: The Definitive Guide>: 裏面內容非常好,既有高屋建瓴,又有微觀把握,
基本適用於0.18-0.20版本。比如mapreduce各個子階段,Join在裏面也有代碼實現,
第三版
http://it-ebooks.info/book/635/
https://github.com/tomwhite/hadoop-book
Google的三輛馬車,GFS, MapReduce, BigTable
Google的新三輛馬車:Caffeine、Pregel、Dremel
http://blog.mikiobraun.de/2013/02/big-data-beyond-map-reduce-go
SIGMOD, VLDB最新

入門:
知道MapReduce大致流程,Map, Shuffle, Reduce
知道Combiner, partition作用,設置Compression
搭建Hadoop集羣,Master/Slave 都運行那些服務 NameNode, DataNode, JobTracker, 
TaskTracker
Pig, Hive 簡單語法,UDF寫法
http://www.hadoopwizard.com/when-to-use-pig-latin-versus-hive-s
http://ofps.oreilly.com/titles/9781449302641/index.html
http://www.slideshare.net/zshao
http://www.cloudera.com/content/cloudera/en/resources/library/t
http://i.stanford.edu/~ragho/hive-icde2010.pdf
http://www.slideshare.net/ragho/hive-icde-2010
Hadoop 2.0新知識; HDFS2 HA,snapshot, ResourceManager,ApplicationsManager, 
NodeManager

進階:
HDFS,Replica如何定位 
http://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf
Hadoop 參數調優,性能優化,Cluster level: JVM, Map/Reduce Slots, Job level: 
Reducer #,
Memory, use Combiner? use Compression?
http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapr
http://www.slideshare.net/ydn/hadoop-summit-2010-tuning-hadoop-

HBase 搭建,region server, key如何選取
http://hbase.apache.org/book.html
數據傾斜怎麼辦?
http://www.tbdata.org/archives/2109

算法:
字典同位詞
翻譯SQL語句 select count(x) from a group by b;
http://blog.cloudera.com/wp-content/uploads/2010/01/5-MapReduce

Blog
關注Cloudera, Hortonworks
http://hortonworks.com/blog/
http://blog.cloudera.com/blog/
http://dongxicheng.org/
http://cloud21.iteye.com/blog/607175

相關係統
數據流系統: Storm(Twitter), S4(Yahoo) 
https://github.com/nathanmarz/storm/wiki/Tutorial
內存計算系統: Spark  and Shark (Berkeley)
http://www.slideshare.net/Hadoop_Summit/spark-and-shark
交互式實時系統:Cloudera Impala, Apache Drill (Dremel開源實現),Tez (
Hortonworks)

公司列表:
http://wiki.apache.org/hadoop/PoweredBy

其他
- 這個領域還是印度人佔主體,Hortonworks挺喜歡開源,開發節奏很快,cloudera的
拳頭產品Enterprise manager是收費的,估計最被H逼着要開源了。
- 開源讓這個世界更美好,Hadoop進化目標:開發部署傻瓜化,性能更強勁,最後爲程
序員標配。
- 核心都是被寡頭控制的,記得一邊文章說一流的公司賣標準,二流的公司賣技術,三
流的公司賣產品,H和C有最多的committer,自然就影響着整個Hadoop社區。
- 技術就是日新月異,還是多看看那些公司的博客,關注感興趣的新產品,比如
hortonworks.com/hadoop/ambari,我做過跟這個類似。
- 在Hadoop系統中從頭裸寫MapReduce不現實了,ETL基本靠Hive,Pig, 之前還用過
Scalding,
https://github.com/twitter/scalding
- MapReduce並不是最優的,僅適合批處理,很多問題:JVM的啓動overhead很大,小
Job更明顯,數據必須先存儲,不適合迭代計算,延遲高。DB學術圈討論很久tradeoff
了,這片MapReduce: 一個巨大的倒退

http://blog.sina.com.cn/s/blog_62a9902f0100gs4q.html



http://www.mitbbs.com/article_t/JobHunting/32058103.html

發佈了429 篇原創文章 · 獲贊 33 · 訪問量 143萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章