hadoop實戰-學習(1)

hadoop應用場景

引用信息http://os.51cto.com/art/201207/347495.htm

(1)在線旅遊:目前全球範圍內80%的在線旅遊網站都是在使用Cloudera公司提供的Hadoop發行版,其中SearchBI網站曾經報道過的Expedia也在其中。

(2)移動數據:Cloudera運營總監稱,美國有70%的智能手機數據服務背後都是由Hadoop來支撐的,也就是說,包括數據的存儲以及無線運營商的數據處理等,都是在利用Hadoop技術。

(3)電子商務:這一場景應該是非常確定的,eBay就是最大的實踐者之一。國內的電商在Hadoop技術上也是儲備頗爲雄厚的。

(4)能源開採:美國Chevron公司是全美第二大石油公司,他們的IT部門主管介紹了Chevron使用Hadoop的經驗,他們利用Hadoop進行數據的收集和處理,其中這些數據是海洋的地震數據,以便於他們找到油礦的位置。

(5)節能:另外一家能源服務商Opower也在使用Hadoop,爲消費者提供節約電費的服務,其中對用戶電費單進行了預測分析。

(6)基礎架構管理:這是一個非常基礎的應用場景,用戶可以用Hadoop從服務器、交換機以及其他的設備中收集並分析數據。

(7)圖像處理:創業公司Skybox Imaging 使用Hadoop來存儲並處理圖片數據,從衛星中拍攝的高清圖像中探測地理變化。

(8)詐騙檢測:這個場景用戶接觸的比較少,一般金融服務或者政府機構會用到。利用Hadoop來存儲所有的客戶交易數據,包括一些非結構化的數據,能夠幫助機構發現客戶的異常活動,預防欺詐行爲。

(9)IT安全:除企業IT基礎機構的管理之外,Hadoop還可以用來處理機器生成數據以便甄別來自惡意軟件或者網絡中的攻擊。

(10)醫療保健:醫療行業也會用到Hadoop,像IBM的Watson就會使用Hadoop集羣作爲其服務的基礎,包括語義分析等高級分析技術等。醫療機構可以利用語義分析爲患者提供醫護人員,並協助醫生更好地爲患者進行診斷。

Hadoop體系入門

(1)Hdfs存儲模型:

HDFS採用了主從《master/slave》結構模型,一個HDFS集羣是由一個NameNode和若干個DataNode組成的,其中NameNode作爲主服務器,管理文件系統的命名空間和客戶端對文件的訪問操作;集羣中的DataNode管理存儲的數據。HDFS允許文件的形式存儲數據,文件被分成若干個數據塊,這些數據塊存放在DataNode上。

a、NameNode執行文件系統的命名空間操作,比如打開、關閉、重命名文件或目錄,也負責數據塊到DataNode的映射。

b、DataNode負責處理文件系統客戶端的文件讀寫請求,並在NameNode的統一調度下進行數據塊的創建、刪除和複製工作。

(2)MapReduce實現分佈式並行任務處理的程序支持。



發佈了74 篇原創文章 · 獲贊 11 · 訪問量 39萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章