學習來源:http://www.aboutyun.com/thread-6179-1-1.html
http://blog.csdn.net/yuexianchang/article/details/52468291
http://www.cnblogs.com/xing901022/p/6195422.html
說明:由於參考資料大多是2013年以前的,所以有些說法也許並不成立,請讀者選擇性吸收。
·日誌處理: Hadoop擅長這個
·海量計算: 並行計算
·ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫
·使用HBase做數據分析: 用擴展性應對大量的寫操作—Facebook構建了基於HBase的實時數據分析系統
·機器學習: 比如Apache Mahout項目
·搜索引擎:hadoop + lucene實現
·數據挖掘:目前比較流行的廣告推薦
·大量地從文件中順序讀。HDFS對順序讀進行了優化,代價是對於隨機的訪問負載較高。
·數據支持一次寫入,多次讀取。對於已經形成的數據的更新不支持。
·數據不進行本地緩存(文件很大,且順序讀沒有局部性)
·任何一臺服務器都有可能失效,需要通過大量的數據複製使得性能不會受到大的影響。
·用戶細分特徵建模
·個性化廣告推薦
·智能儀器推薦
·存儲極大數目的信息(terabytes or petabytes),將數據保存到大量的節點當中。支持很大單個文件。
·提供數據的高可靠性,單個或者多個節點不工作,對系統不會造成任何影響,數據仍然可用。
·提供對這些信息的快速訪問,並提供可擴展的方式。
·通過簡單加入更多服務器的方式就能夠服務更多的客戶端。
·HDFS是針對MapReduce設計的,使得數據儘可能根據其本地局部性進行訪問與計算。
·hadoop相關文檔下載(http://www.aboutyun.com/forum.php?mod=viewthread&tid=6160&highlight=hadoop)
·about雲資源彙總V1.2(http://www.aboutyun.com/thread-5928-1-1.html)