Python大數據分析（一）：認識大數據

文章目錄

（三）大數據思維變革

（四）大數據處理過程

（一）大數據的定義

大數據（Big data），又稱爲巨量資料，指的是在傳統數據處理應用軟件不足以處理的大或複雜的數據集的術語

數據的單位： 最小的基本單位是bit，按順序給出所有單位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024（2的十次方）來計算：
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

全稱：

1 Bit（比特） =Binary Digit
8 Bits = 1 Byte（字節）
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte

（二）大數據的4V特徵

（1）大量（Volume）

每天產生數據的規模之大

（2）多樣（Variety）

來自各行各業不同類型的數據

（3）快速（Velocity）

數據流分析的速度，在龐大數據量中進行數據掃描識別

（4）價值（Value）

數據的不確定性，需要從海量數據中篩選出有價值的部分

（三）大數據思維變革

（1）隨機數據與全體數據

從隨機數據採樣分析的精確度隨數據的隨機性增加而增加，但是隨機數據是小樣本，無法預見事先未考慮的情況；大數據樣本具有更廣，更多的數據樣本，樣本等於總體，能夠發現更多的問題，分析大數據能從多維度對問題進行解析

（2）精確度與混亂度

混亂是大數據規模擴大後必然會產生的，收集大量數據後，在不斷混亂的邏輯中產生的誤差之間追求精確度，在衡量理想值和誤差之間不斷挖掘出數據背後的價值，具有更大的意義

（3）因果關係與相關關係

知道“是什麼”就夠了，沒必要知道“爲什麼” ——《大數據時代》
相關關係可以在實踐中引導我們“怎麼做”，而因果關係可以回答我們“爲什麼”這樣做。
因果關係往往來自經驗，來自於經驗中的直覺、信念，經不起實證的檢驗。大數據的因果更適用於統計決定論，從大量混亂多樣的數據中尋找到一定的關係。

（四）大數據處理過程

大數據處理過程（Big Data processing）是一個處理大量信息的過程

（1）採集

大數據的採集指利用多個數據庫接受來自客戶端的數據，比如：MySQL，Redis ， MongoDB 等數據庫包含了來自各行各業成千上萬的數據，我們常常從裏面進行數據的採集

（2）導入/預處理

爲了更好地對海量數據進行有效分析，應該將海量數據導入到一個集中的大型分佈式數據庫，或者分佈式存儲集羣，在導入的基礎上做一些清洗和預處理工作（每秒鐘導入量經常會達到百兆，甚至千兆級別）

（3）統計/分析

統計分析主要利用存儲於分佈式數據庫，或者分佈式計算集羣的海量數據進行普通的分析和分類彙總，在這個過程中，Hadoop可以使用在一些批處理或基於半結構化數據的需求（注：　Hadoop，是一個由Apache基金會所開發的分佈式系統基礎架構。用戶可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。）

（4）挖掘

數據挖掘一般沒有預先設定好的方案，大多是在現有數據基礎上，使用各種數據算法對數據進行計算，從而起到通過分析數據得到預測數據的效果，常用數據挖掘算法都以單線程爲主
主要使用的工具有Hadoop的Mahout等，典型的算法有這些：
1，用於聚類的Kmeans
2，用於統計學習的SVM
3，用於分類的NaiveBayes

（五）大數據的應用

（1）犯罪預測
下圖是應用於美國某城市的犯罪數據集

（2）城市規劃

（3）房價預測
（4）股市預測

（5）人類情感預測
（6）心理學統計
… …
還有很多很多的應用方向，利於人工智能的機器學習，深度學習等

下圖是應用於谷歌趨勢的全球數據收集統計的數據顯示

點擊下載可下載到csv文件

附：參考資料

《大數據時代》| 【作者】：維克托.邁爾-舍恩伯格（Viktor Mayer-Sch·nberger），數據科學家
《 Big Data What it is and why it matters》
地址：https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
《大數據時代思維方式變革的哲學意蘊》| 【作者】：宋海龍，解放軍信息工程大學理學院教授，博士，研究方向：科學史、科學技術哲學
智庫百科·大數據
地址：https://wiki.mbalib.com/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE
百度百科·大數據
地址： https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python大數據分析（一）：認識大數據

文章目錄

（一）大數據的定義

（二）大數據的4V特徵

（1）大量（Volume）

（2）多樣（Variety）

（3）快速（Velocity）

（4）價值（Value）

（三）大數據思維變革

（1）隨機數據與全體數據

（2）精確度與混亂度

（3）因果關係與相關關係

（四）大數據處理過程

（1）採集

（2）導入/預處理

（3）統計/分析

（4）挖掘

（五）大數據的應用

附：參考資料

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

一文搞懂 Spring 循環依賴

抖音面試：說說延遲任務的調度算法？

史上最短最敷衍的Nodejs教程（四）文件系統模塊

用JQ+AJAX+PHP+Mysql做簡單的用戶註冊功能

史上最短最敷衍的Nodejs教程（五）URL模塊

前端CSS小作業練習（四）

Go速成無壓力【一】：Hello World

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結