大數據概述以及Hadoop

原創

Ethan1212

2019-06-11 07:13

什麼是大數據？他有哪四個基本特徵（四個V）？
- 大數據，是指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合。
- 數據量大，TB，PB，乃至EB等數據量的數據需要分析處理。
  Volume
- 處理速度快，市場變化快，要求能及時快速的響應變化，那對數據的分析也要快速，在性能上有更高的要求所以數據量顯得對速度要求有些大。
  Velocity
- 數據種類繁多：不同的數據源，非結構化數據越來越多，需要進行清洗，整理，篩選等操作，變爲結構數據。
  Variety
- 價值密度低，由於數據採集的不及時，數據樣本不全面，數據可能不連續等等，數據可能會失真，但當數據量達到一定規模，可以通過更多的數據達到更真實全面的反饋。
  Value
Hadoop大數據處理架構
- Hadoop是一個開源的、可運行於大規模集羣上的分佈式計算平臺，它實現了MapReduce計算模型和分佈式文件系統HDFS等功能。
- hadoop的特性：高可靠性、高效性、高可擴展性、高容錯性、成本低、運行在Linux平臺上、支持多種編程語言。
- Hadoop是基於Java語言開發的，具有很好的跨平臺特性，並且可以部署在廉價的計算機集羣中。
- Hadoop的核心是分佈式文件系統和MapReduce。
- 藉助於Hadoop，程序員可以輕鬆地編寫分佈式並行程序，並將其·運行於廉價計算機集羣上，萬成爲那個海量數據的存儲與計算。
- 國內採用Hadoop的公司主要有：百度、淘寶、網易、華爲、中國移動等。
- Hadoop生態系統包括核心的HDFS和MapReduce以外還包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari。
- Hadoop的安裝配置主要包括以下五個步驟
  - 創建Hadoop用戶（創建用戶：useradd，設置密碼：passwd）
  - 安裝Java（Hadoop開發和運行都需要Java的支持，Ubuntu系統可能已經預裝了java）
  - 設置SSH登錄權限
  - 單機安裝配置
  - 僞分佈式安裝配置

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據概述以及Hadoop

什麼是大數據？他有哪四個基本特徵（四個V）？

Hadoop大數據處理架構

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

智能路燈平臺燈具控制系統

【單片機原理與應用】mcs-51的七種尋址方式

【計算機網絡】概述(技術驅動和市場驅動是科技成果的兩大驅動力)

大數據概述以及Hadoop

java_UML：繼承/泛化、實現、依賴、關聯、聚合、組合的聯繫與區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結