大數據Hadoop的基礎知識與入門

隨着大數據與雲計算的應用十分廣泛,在這裏寫一下我對大數據的基本認識與瞭解;

一、大數據是啥?

1.

(1)      舉例子:商品推薦 問題(1)、大量訂單如何存儲  (2)、大量的訂單如何計算

(2)      天氣預報  問題  (1)、大量天氣數據如何存儲 (2)、大量天氣數據如何計算

 2.核心問題  數據的存儲 與數據的計算

3、Hadoop 要解決的問題就是上面兩個問題

4. IBM提出大數據的定義5個v ,就是關於數據量大單詞

 

二、如何學習大數據Hadoop

1.重要:原理與運行機制

2.操作: 開發程序(Java程序)

 

三、Google的基本思想;


3篇論文:

1.GFS (Google file system) : 分佈式的文件系統(類似與網盤)----數據的存儲----HDFS(Hadoop Distribute file system )

2.Page rank (搜索排名) 算法:        Google向量矩陣 大---小       -----數據的計算   Mapreduce 計算模型

3.Big Table (大表                         ------) NoSql 數據庫  Hbase ( Hadoop  DataBase) 不支持事物

 

分佈式文件系統 :思想來源:Google論文

   問題:1、數據不夠安全  冗餘度:Hadoop 默認是3    2、硬盤不夠大 (多幾塊硬盤)

管理員:namNode  1+1 DataNode(具體存儲


 



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章