2.什麼是大數據

02 大數據到底是個啥

只有在那崎嶇的小路上不畏艱險奮勇攀登的人,纔有希望達到光輝的頂點。
——馬克思
在計算機和互聯網技術高度發達的今天,我們所有人每天都會在互聯網上產生大量的數據,例如出去旅遊,用蘋果手機拍照,照片備份到蘋果 iCloud 裏面會留下圖片數據,在京東購買商品時會產生商品交易數據,使用微信進行即時通信會產生通信數據,使用網約車軟件打車會產生出行數據 ……

如此可見每天互聯網上產生的數據是有多龐大,數據可謂是無處不在。根據 IBM 調研的說法,人類每天生成的數據涵蓋我們發送的文本、上傳的照片、各類傳感器數據等所有信息,相當於從地球到月球的距離。因特爾公司首席執行官 Brian Krzanich 也曾表示,到 2020 年互聯網用戶每天將產生 1.5GB 的數據。

那麼大數據是不是就是指的數據量巨大呢?大數據到底是個啥?

百度百科裏是這麼定義大數據的:

大數據(big data)是指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

在維克托・邁爾 - 舍恩伯格及肯尼斯・庫克耶編寫的《大數據時代》 [2] 中表示,大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。

1980 年,美國著名未來學家阿爾文・托夫勒在《第三次浪潮》一書中將大數據認爲是 “第三次浪潮的華彩樂章”,這是第一次提及 “大數據”。
圖片描述圖片來自於網絡,版權歸原作者所有

在 2001 年,高德納分析員道格・萊尼在一份與其 2001 年的研究相關的演講中指出,數據增長有三個方向的挑戰和機遇:量(Volume),即數據多少;速(Velocity),即資料輸入、輸出的速度;類(Variety),即多樣性。

在萊尼的理論基礎上,IBM 提出大數據的 4V 特徵,得到了業界的廣泛認可。大數據 4V 特徵:volume(容量)、variety(種類)、velocity(速度)、value(價值)。

第一,大數據意味着超規模(Volume)。 大數據的規模從一般意義上講具有大規模、海量的含義,但是沒有絕對的量綱標準,而是和領域及其問題相關。

超規模是指超出了原有領域和問題的大規模。比如企業大數據,與之前不同的一個地方在於,此時的數據規模常常超越了企業本身傳統的內部數據邊界,而是延伸到了企業外部,成爲一種社會化的企業數據。每個人作爲終端使用者,既是數據的使用者,又是數據的創造者。

第二,大數據意味着多樣性(Variety)。 富媒體(Rich Media)大大擴展了人們的數字化生活體驗,全球數據和數字流量中 80% 以上 都是文本、視頻、語音、圖像,而不是過去以二維的、規範化的、非常簡單數據形式爲主的結構化數據。多樣性成爲大數據的顯著特徵。

第三,我們處在數據的海洋之中,但與我們企業或個人相關的數據相對說來是很少的,所以是低價值密度的(Value)。 即,數據量的分母太大,對企業或個人決策有價值的信息佔總量的比例就很小。

所以這裏有一個重要的含義,即如何從低價值密度的數據海洋中挖掘出有用信息,成爲企業數據分析的關鍵。

第四,大數據的實時性強(Velocity)。 信息就像開着的水龍頭一樣,源源不斷地出來。人們打開手機看新聞,支付賬單,都需要得到及時響應,而不是等到晚上再看新聞,要排個隊才能支付賬單。

數據是連續的,實時的,流湧的。這種流數據是時時刻刻(Real-Time)的,構成了大數據之 “大” 和無時不在。

莎士比亞說過:一千個人心中,有一千個哈姆雷特。每個對大數據理解的角度不盡相同。作爲一名互聯大數據技術人員,我對大數據的理解是這樣的。

3.1 大數據必須的是體量巨大的數據,而不是單個的我們生活中感知的 “大文件”。偶爾會聽到有人會將某一部高清的 4K 電影,稱之爲大數據。要知道對應我們普通的電腦來說一部幾十 G 數據量已經很大了,但是對於整個社會每天產生的 PB、EB、ZB 來說,真的是冰山一角。

那麼什麼樣體量的數據,能稱之爲大數據呢,以我所在的互聯網生活服務超級平臺舉例,用戶每天在 App 上瀏覽、點擊、購買、平臺行爲產生的數據量在幾十 PB 級別。

關於大數據規模門檻我給出一個簡單的判斷標準:每天產生數據低於 TB 級別的數據都不能稱之爲大數據。

3.2 大數據指的是有價值的數據。一些不正規的互聯網媒體爲了騙取互聯網廣告主的廣告推廣費用,會自己購買服務器,部署刷量程序。這些機器上的程序日夜不停地點擊媒體上廣告主投放的廣告,在點擊過程中會產生大量的曝光數據。數據量也能達到驚人的 PB 級別,但是這些數據背後對應的是一個個沒有生命的 “程序”。

這些 “程序” 除了點擊廣告之外,也不會產生有價值的行爲。所以這些數據是沒有價值的,也就不能稱之爲大數據。

關於大數據價值判斷標準:大數據背後需要對應一個個鮮活的個體,這些個體必須是能產生其他社會價值的。個體的標準不僅限於人,但多數情況下等於人。

3.3 大數據具有嚴格的時效性。 儘管比較久遠的也能反映數據背後個體的歷史行爲。但數據和個體對應關係會時刻發生變化。歷史行爲到當前是否能來準確描述個體的行爲我們是無從判斷的。

例如:一名大學生在上學的時候主要經濟來源是父母,他的經濟購買能力是比較有限的。幾年之後參加工作,自己有了穩定的收入以後,購買能力就會大大增強,此時再根據他歷史數據,去給他推送商品時候,這個人成功購買的概率就會很低。

所以說大數據隨時間的推移,時效性下降之後,數據價值極具下降。關於大數據時效性判斷標準:大數據從數據產生開始,數據價值在幾個月的時間裏會持續下跌,直到沒有任何價值。

這一節我們重點討論了大數據的定義,通過引用了百度百科、托夫勒、萊尼等多方觀點闡述,並結合我個人的理解總結了大數據的特點。同學們,你們的對大數據的理解是怎樣的呢,歡迎大家在評論區給我留言。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章