隨着大數據與雲計算的應用十分廣泛,在這裏寫一下我對大數據的基本認識與瞭解;
一、大數據是啥?
1.
(1) 舉例子:商品推薦 問題(1)、大量訂單如何存儲 (2)、大量的訂單如何計算
(2) 天氣預報 問題 (1)、大量天氣數據如何存儲 (2)、大量天氣數據如何計算
2.核心問題 數據的存儲 與數據的計算
3、Hadoop 要解決的問題就是上面兩個問題
4. IBM提出大數據的定義5個v ,就是關於數據量大單詞
二、如何學習大數據Hadoop
1.重要:原理與運行機制
2.操作: 開發程序(Java程序)
三、Google的基本思想;
3篇論文:
1.GFS (Google file system) : 分佈式的文件系統(類似與網盤)----數據的存儲----HDFS(Hadoop Distribute file system )
2.Page rank (搜索排名) 算法: Google向量矩陣 大---小 -----數據的計算 Mapreduce 計算模型
3.Big Table (大表 ------) NoSql 數據庫 Hbase ( Hadoop DataBase) 不支持事物
分佈式文件系統 :思想來源:Google論文
問題:1、數據不夠安全 冗餘度:Hadoop 默認是3 2、硬盤不夠大 (多幾塊硬盤)
管理員:namNode 1+1 DataNode(具體存儲