-
什麼是大數據?他有哪四個基本特徵(四個V)?
-
大數據,是指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合。
-
數據量大,TB,PB,乃至EB等數據量的數據需要分析處理。
Volume -
處理速度快,市場變化快,要求能及時快速的響應變化,那對數據的分析也要快速,在性能上有更高的要求所以數據量顯得對速度要求有些大。
Velocity -
數據種類繁多:不同的數據源,非結構化數據越來越多,需要進行清洗,整理,篩選等操作,變爲結構數據。
Variety -
價值密度低,由於數據採集的不及時,數據樣本不全面,數據可能不連續等等,數據可能會失真,但當數據量達到一定規模,可以通過更多的數據達到更真實全面的反饋。
Value
-
-
Hadoop大數據處理架構
-
Hadoop是一個開源的、可運行於大規模集羣上的分佈式計算平臺,它實現了MapReduce計算模型和分佈式文件系統HDFS等功能。
-
hadoop的特性:高可靠性、高效性、高可擴展性、高容錯性、成本低、運行在Linux平臺上、支持多種編程語言。
-
Hadoop是基於Java語言開發的,具有很好的跨平臺特性,並且可以部署在廉價的計算機集羣中。
-
Hadoop的核心是分佈式文件系統和MapReduce。
-
藉助於Hadoop,程序員可以輕鬆地編寫分佈式並行程序,並將其·運行於廉價計算機集羣上,萬成爲那個海量數據的存儲與計算。
-
國內採用Hadoop的公司主要有:百度、淘寶、網易、華爲、中國移動等。
-
Hadoop生態系統包括核心的HDFS和MapReduce以外還包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari。
-
-
Hadoop的安裝配置主要包括以下五個步驟
- 創建Hadoop用戶(創建用戶:useradd,設置密碼:passwd)
- 安裝Java(Hadoop開發和運行都需要Java的支持,Ubuntu系統可能已經預裝了java)
- 設置SSH登錄權限
- 單機安裝配置
- 僞分佈式安裝配置
-
大數據概述以及Hadoop
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.