flume應用開發、搜索引擎算法、Pipes、集羣、PageRank算法


  目前很多重要的鏈接分析算法都是在PageRank算法基礎上來的、PageRank是Google用來測量網站的好壞唯一標準、PageRank算法:被用戶訪問越多的網頁質量越高,而用戶在瀏覽網頁時主要通過超鏈接進行頁面跳轉,因此我們需要通過分析超鏈接組成的拓撲結構來推算每個網頁被訪問頻率的高低。Pagerank算法不僅對搜索結果進行排序外,還可以應用到其它方面,如估算網絡流量,向後鏈接的預測器,爲用戶導航等。


 獲得網站網頁資料建立數據庫並提供查詢的系統這些都可以稱爲搜索引擎、Google、百度都是搜索引擎系統。Flume是Cloudera提供的一個海量日誌收集系統、Flume說白了就是一個融入Hadoop當中的分佈式、可靠性、可擴展性、可管理性、功能可擴展性、高可用的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。

Hadoop是2013年最熱門的技術之一是一個分佈式系統基礎架構,由Apache基金會開發。用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力高速運算和存儲。Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有着高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)文件系統中的數據。

   Hadoop 是一個能夠對大量數據進行分佈式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因爲它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因爲它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。【Hadoop應用開發實戰】、運用flume應用開發、Pipes、Hadoop Streaming等技術結合講師多年的雲平臺的各方面企業內部培訓經驗打造出的。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章