個人微信:yinhaoliang6
大數據概述(Big Data)
問題來了,何爲大數據?
大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合.是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
Volume: 巨大的數據量
• 新浪微博用戶數2.5億+,高峯每天幾億條。
Variety :數據多樣性
• 文本/圖片/視頻/文檔等,如諸如微地震,電磁以及光纖分佈式溫度監測(DTS) 。
Velocity:數據增長速度快
• 用戶基數龐大/設備數量衆多/實時海量/數據指數級別增長。
Value:數據的價值性
• 每個深水鑽井平臺的投資可達到$150M,能有效利用所有的數據非常關鍵,關係到安全與優化運營 。
Vercity:數據的真實性
從一個小型數據分析案例說起–足球點球大戰
大家可以百度一下
再來一個大數據分析案例–支付寶賬單
數據倉庫
- 關係型數據庫
商品信息表
- 天氣預報
用雲層信息加上歷史幾年的數據去分析得出的天氣狀況
1.數據存儲
2.數據計算
挑戰分析之如何對大數據進行存儲和分析呢?
問題來了.Google只發表了技術論文,並沒有開發源代碼
Hadoop之父—Doug Cutting
瞭解這個人的信息請大家自行百度
HDFS 分佈式文件系統
Mapreduce 分佈式計算框架(計算和分析)
HBase (非關係型數據庫)