大數據概述以及Hadoop

  • 什麼是大數據?他有哪四個基本特徵(四個V)?

    • 大數據,是指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合。

    • 數據量大,TB,PB,乃至EB等數據量的數據需要分析處理。
      Volume

    • 處理速度快,市場變化快,要求能及時快速的響應變化,那對數據的分析也要快速,在性能上有更高的要求所以數據量顯得對速度要求有些大。
      Velocity

    • 數據種類繁多:不同的數據源,非結構化數據越來越多,需要進行清洗,整理,篩選等操作,變爲結構數據。
      Variety

    • 價值密度低,由於數據採集的不及時,數據樣本不全面,數據可能不連續等等,數據可能會失真,但當數據量達到一定規模,可以通過更多的數據達到更真實全面的反饋。
      Value

  • Hadoop大數據處理架構

    • Hadoop是一個開源的、可運行於大規模集羣上的分佈式計算平臺,它實現了MapReduce計算模型和分佈式文件系統HDFS等功能。

    • hadoop的特性:高可靠性、高效性、高可擴展性、高容錯性、成本低、運行在Linux平臺上、支持多種編程語言。

    • Hadoop是基於Java語言開發的,具有很好的跨平臺特性,並且可以部署在廉價的計算機集羣中。

    • Hadoop的核心是分佈式文件系統和MapReduce。

    • 藉助於Hadoop,程序員可以輕鬆地編寫分佈式並行程序,並將其·運行於廉價計算機集羣上,萬成爲那個海量數據的存儲與計算。

    • 國內採用Hadoop的公司主要有:百度、淘寶、網易、華爲、中國移動等。

    • Hadoop生態系統包括核心的HDFS和MapReduce以外還包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari。

    •  

    • Hadoop的安裝配置主要包括以下五個步驟     

      • 創建Hadoop用戶(創建用戶:useradd,設置密碼:passwd)​
      • 安裝Java(Hadoop開發和運行都需要Java的支持,Ubuntu系統可能已經預裝了java)​
      • 設置SSH登錄權限
      • 單機安裝配置
      • 僞分佈式安裝配置       
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章