大數據概念完全解讀

在寫這篇大數據文章之前,我發現身邊很多IT人對於這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大數據是什麼,什麼是大數據概念?估計很少能說出一二三來。究其原因,一是因爲大家對大數據這類新技術有着相同的原始渴求,至少知其然在聊天時不會顯得很“土鱉”;二是在工作和生活環境中真正能參與實踐大數據的案例實在太少了,所以大家沒有必要花時間去知其所以然。

我希望有些不一樣,所以對該如何去認識大數據進行了一番思索,包括查閱了資料,翻閱了最新的專業書籍,但我並不想把那些零散的資料碎片或不同理解論述簡單規整並堆積起來形成毫無價值的轉述或評論,我很真誠的希望進入事物探尋本質。

如果你說大數據就是數據大,或者侃侃而談4個V,也許很有深度的談到BI或預測的價值,又或者拿Google和Amazon舉例,技術流可能會聊起hadoop和Cloud Computing,不管對錯,只是無法勾勒對大數據的整體認識,不說是片面,但至少有些管窺蠡測、隔衣瘙癢了。……也許,“解構”是最好的方法。

怎樣結構大數據?

首先,我認爲大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算爲代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步爲人類創造更多的價值。

其次,想要系統的認知大數據,必須要全面而細緻的分解它,我着手從三個層面來展開:

 

大數據

實踐

第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。

第二層面是技術,技術是大數據價值體現的手段和前進的基石。我將分別從雲計算、分佈式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。

第三層面是實踐,實踐是大數據的最終價值體現。我將分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。

 

對大數據以及人工智能概念都是模糊不清的,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系 。從java和linux入手,其後逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關知識一一分享!

和大數據概念相關的理論

特徵定義

最早提出大數據時代到來的是麥肯錫:“數據,已經滲透到當今每一個行業和業務職能領域,成爲重要的生產因素。人們對於海量數據的挖掘和運用,預示着新一波生產率增長和消費者盈餘浪潮的到來。”

業界(IBM 最早定義)將大數據的特徵歸納爲4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網絡日誌、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最後這一點也是和傳統的數據挖掘技術有着本質的不同。

其實這些V並不能真正說清楚大數據的所有特徵,下面這張圖對大數據的一些相關特性做出了有效的說明。

古語云:三分技術,七分數據,得數據者得天下。先不論誰說的,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是爲了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。

那麼,什麼是大數據思維?維克托·邁爾-舍恩伯格認爲,1-需要全部數據樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關係。

阿里巴巴的王堅對於大數據也有一些獨特的見解,比如,

“今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。”

“非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。”

“你千萬不要想着拿數據去改進一個業務,這不是大數據。你一定是去做了一件以前做不了的事情。”

特別是最後一點,我是非常認同的,大數據的真正價值在於創造,在於填補無數個還未實現過的空白。

有人把數據比喻爲蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更爲重要。

價值探討

大數據是什麼?投資者眼裏是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。

如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

Target 超市以20多種懷孕期間孕婦可能會購買的商品爲基礎,將所有用戶的購買記錄作爲數據來源,通過構建模型分析購買者的行爲相關性,能準確的推斷出孕婦的具體臨盆時間,這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優惠卷。

Target的例子是一個很典型的案例,這樣印證了維克托·邁爾-舍恩伯格提過的一個很有指導意義的觀點:通過找出一個關聯物並監控它,就可以預測未來。Target通過監測購買者購買商品的時間和品種來準確預測顧客的孕期,這就是對數據的二次利用的典型案例。如果,我們通過採集駕駛員手機的GPS數據,就可以分析出當前哪些道路正在堵車,並可以及時發佈道路交通提醒;通過採集汽車的GPS位置數據,就可以分析城市的哪些區域停車較多,這也代表該區域有着較爲活躍的人羣,這些分析數據適合賣給廣告投放商。

不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經爲不少的企業帶來了盈利和聲譽。

從大數據的價值鏈條來分析,存在三種模式:

1- 手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。

2- 沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT諮詢和服務企業,比如,埃森哲,IBM,Oracle等。

3- 既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。

未來在大數據領域最具有價值的是兩種事物:1-擁有大數據思維的人,這種人可以將大數據的潛在價值轉化爲實際利益;2-還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。

Wal-Mart作爲零售行業的巨頭,他們的分析人員會對每個階段的銷售記錄進行了全面的分析,有一次他們無意中發現雖不相關但很有價值的數據,在美國的颶風來臨季節,超市的蛋撻和抵禦颶風物品竟然銷量都有大幅增加,於是他們做了一個明智決策,就是將蛋撻的銷售位置移到了颶風物品銷售區域旁邊,看起來是爲了方便用戶挑選,但是沒有想到蛋撻的銷量因此又提高了很多。

 

 

這些例子真實的反映在各行各業,探求數據價值取決於把握數據的人,關鍵是人的數據思維;與其說是大數據創造了價值,不如說是大數據思維觸發了新的價值增長。

現在和未來

我們先看看大數據在當下有怎樣的傑出表現:

大數據幫助政府實現市場經濟調控、公共衛生安全防範、災難預警、社會輿論監督;

大數據幫助城市預防犯罪,實現智慧交通,提升緊急應急能力;

大數據幫助醫療機構建立患者的疾病風險跟蹤機制,幫助醫藥企業提升藥品的臨牀使用效果,幫助艾滋病研究機構爲患者提供定製的藥物;

大數據幫助航空公司節省運營成本,幫助電信企業實現售後服務質量提升,幫助保險企業識別欺詐騙保行爲,幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識別預警即將發生故障的設備;

大數據幫助電商公司向用戶推薦商品和服務,幫助旅遊網站爲旅遊者提供心儀的旅遊路線,幫助二手市場的買賣雙方找到最合適的交易目標,幫助用戶找到最合適的商品購買時期、商家和最優惠價格;

大數據幫助企業提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業提升廣告投放精準度;

大數據幫助娛樂行業預測歌手,歌曲,電影,電視劇的受歡迎程度,併爲投資者分析評估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;

大數據幫助社交網站提供更準確的好友推薦,爲用戶提供更精準的企業招聘信息,向用戶推薦可能喜歡的遊戲以及適合購買的商品。

其實,這些還遠遠不夠,未來大數據的身影應該無處不在,就算無法準確預測大數據終會將人類社會帶往到哪種最終形態,但我相信只要發展腳步在繼續,因大數據而產生的變革浪潮將很快淹沒地球的每一個角落。

比如,Amazon的最終期望是:“最成功的書籍推薦應該只有一本書,就是用戶要買的下一本書。”

Google也希望當用戶在搜索時,最好的體驗是搜索結果只包含用戶所需要的內容,而這並不需要用戶給予Google太多的提示。

而當物聯網發展到達一定規模時,藉助條形碼、二維碼、RFID等能夠唯一標識產品,傳感器、可穿戴設備、智能感知、視頻採集、增強現實等技術可實現實時的信息採集和分析,這些數據能夠支撐智慧城市,智慧交通,智慧能源,智慧醫療,智慧環保的理念需要,這些都所謂的智慧將是大數據的採集數據來源和服務範圍。

未來的大數據除了將更好的解決社會問題,商業營銷問題,科學技術問題,還有一個可預見的趨勢是以人爲本的大數據方針。人才是地球的主宰,大部分的數據都與人類有關,要通過大數據解決人的問題。

比如,建立個人的數據中心,將每個人的日常生活習慣,身體體徵,社會網絡,知識能力,愛好性情,疾病嗜好,情緒波動……換言之就是記錄人從出生那一刻起的每一分每一秒,將除了思維外的一切都儲存下來,這些數據可以被充分的利用:

醫療機構將實時的監測用戶的身體健康狀況;

教育機構更有針對的制定用戶喜歡的教育培訓計劃;

服務行業爲用戶提供即時健康的符合用戶生活習慣的食物和其它服務;

社交網絡能爲你提供合適的交友對象,併爲志同道合的人羣組織各種聚會活動;

政府能在用戶的心理健康出現問題時有效的干預,防範自殺,刑事案件的發生;

金融機構能幫助用戶進行有效的理財管理,爲用戶的資金提供更有效的使用建議和規劃;

道路交通、汽車租賃及運輸行業可以爲用戶提供更合適的出行線路和路途服務安排;

……

 

當然,上面的一切看起來都很美好,但是否是以犧牲了用戶的自由爲前提呢?只能說當新鮮事物帶來了革新的同時也同樣帶來了“病菌”。比如,在手機未普及前,大家喜歡聚在一起聊天,自從手機普及後特別是有了互聯網,大家不用聚在一起也可以隨時隨地的聊天,只是“病菌”滋生了另外一種情形,大家慢慢習慣了和手機共渡時光,人與人之間情感交流彷彿永遠隔着一張“網”。

大數據隱私

你或許並不敏感,當你在不同的網站上註冊了個人信息後,可能這些信息已經被擴散出去了,當你莫名其妙的接到各種郵件,電話,短信的滋擾時,你不會想到自己的電話號碼,郵箱,生日,購買記錄,收入水平,家庭住址,親朋好友等私人信息早就被各種商業機構非法存儲或賤賣給其它任何有需要的企業或個人了。

更可怕的是,這些信息你永遠無法刪除,它們永遠存在於互聯網的某些你不知道的角落。除非你更換掉自己的所有信息,但是這代價太大了。

用戶隱私問題一直是大數據應用難以繞開的一個問題,如被央視曝光過的分衆無線、羅維鄧白氏以及網易郵箱都涉及侵犯用戶隱私。目前,中國並沒有專門的法律法規來界定用戶隱私,處理相關問題時多采用其他相關法規條例來解釋。但隨着民衆隱私意識的日益增強,合法合規地獲取數據、分析數據和應用數據,是進行大數據分析時必須遵循的原則。

說到隱私被侵犯,愛德華?斯諾登應該佔據一席之地,這位前美國中央情報局(CIA)僱員一手引爆了美國“棱鏡計劃”(PRISM)的內幕消息。“棱鏡”項目是一項由美國國家安全局(NSA)自2007年起開始實施的絕密電子監聽計劃,年耗資近2000億美元,用於監聽全美電話通話記錄,據稱還可以使情報人員通過“後門”進入9家主要科技公司的服務器,包括微軟、雅虎、谷歌、Facebook、PalTalk、美國在線、Skype、YouTube、蘋果。這個事件引發了人們對政府使用大數據時對公民隱私侵犯的擔心。

再看看我們身邊,當微博,微信,QQ空間這些社交平臺肆意的吞噬着數億用戶的各種信息時,你就不要指望你還有隱私權了,就算你在某個地方刪除了,但也許這些信息已經被其他人轉載或保存了,更有可能已經被百度或Google存爲快照,早就提供給任意用戶搜索了。

因此在大數據的背景下,很多人都在積極的抵制無底線的數字化,這種大數據和個體之間的博弈還會一直繼續下去……

專家給予了我們一些如何有效保護大數據背景下隱私權的建議:1-減少信息的數字化;2-隱私權立法;3-數字隱私權基礎設施(類似DRM數字版權管理);4-人類改變認知(接受忽略過去);5-創造良性的信息生態;6-語境化。

但是這些都很難立即見效或者有實質性的改善。

比如,現在有一種職業叫刪帖人,專門負責幫人到各大網站刪帖,刪除評論。其實這些人就是通過黑客技術侵入各大網站,破獲管理員的密碼然後進行手工定向刪除。只不過他們保護的不是客戶的隱私,而大多是醜聞。還有一種職業叫人肉專家,他們負責從互聯網上找到一個與他們根本就無關係用戶的任意信息。這是很可怕的事情,也就是說,如果有人想找到你,只需要兩個條件:1-你上過網,留下過痕跡;2-你的親朋好友或僅僅是認識你的人上過網,留下過你的痕跡。這兩個條件滿足其一,人肉專家就可以很輕鬆的找到你,可能還知道你現在正在某個餐廳和誰一起共進晚餐。

當很多互聯網企業意識到隱私對於用戶的重要性時,爲了繼續得到用戶的信任,他們採取了很多辦法,比如google承諾僅保留用戶的搜索記錄9個月,瀏覽器廠商提供了無痕衝浪模式,社交網站拒絕公共搜索引擎的爬蟲進入,並將提供出去的數據全部採取匿名方式處理等。

在這種複雜的環境裏面,很多人依然沒有建立對於信息隱私的保護意識,讓自己一直處於被滋擾,被精心設計,被利用,被監視的處境中。可是,我們能做的幾乎微乎其微,因爲個人隱私數據已經無法由我們自己掌控了,就像一首詩裏說到的:“如果你現在繼續麻木,那就別指望這麻木能抵擋得住被”扒光”那一刻的驚恐和絕望……”

和大數據相關的技術

雲技術

大數據常和雲計算聯繫到一起,因爲實時的大型數據集分析需要分佈式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大數據則是電。

雲計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作爲一種像水和電一樣的公用事業提供給用戶。

如今,在Google、Amazon、阿里雲、景安等一批互聯網企業引領下,一種行之有效的模式出現了:雲計算提供基礎架構平臺,大數據應用運行在這個平臺上。

業內是這麼形容兩者的關係:沒有大數據的信息積澱,則雲計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,則大數據的信息積澱再豐富,也終究只是鏡花水月。

那麼大數據到底需要哪些雲計算技術呢?

這裏暫且列舉一些,比如虛擬化技術,分佈式處理技術,海量數據的存儲和管理技術,NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。

雲計算和大數據之間的關係可以用下面的一張圖來說明,兩者之間結合後會產生如下效應:可以提供更多基於海量業務數據的創新型服務;通過雲計算技術的不斷髮展降低大數據業務的創新成本。

如果將雲計算與大數據進行一些比較,最明顯的區分在兩個方面:

第一,在概念上兩者有所不同,雲計算改變了IT,而大數據則改變了業務。然而大數據必須有云作爲基礎架構,才能得以順暢運營。

第二,大數據和雲計算的目標受衆不同,雲計算是CIO等關心的技術層,是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品,而大數據的決策者是業務層。

分佈式處理技術

分佈式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務—這就是分佈式處理系統的定義。

以Hadoop(Yahoo)爲例進行說明,Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分佈式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的。

而MapReduce是Google提出的一種雲計算的核心計算模式,是一種分佈式運算技術,也是簡化的分佈式編程模式,MapReduce模式的主要思想是將自動分割要執行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式, 在數據被分割後通過Map 函數的程序將數據映射成不同的區塊,分配給計算機機羣處理達到分佈式運算的效果,在通過Reduce 函數的程序將結果彙整,從而輸出開發者需要的結果。

 

再來看看Hadoop的特性,第一,它是可靠的,因爲它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。其次,Hadoop 是高效的,因爲它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。

你也可以這麼理解Hadoop的構成,Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+……Others

Hadoop用到的一些技術有:

HDFS: Hadoop分佈式文件系統(Distributed File System) - HDFS (HadoopDistributed File System)

MapReduce:並行計算框架

HBase: 類似Google BigTable的分佈式NoSQL列數據庫。

Hive:數據倉庫工具,由Facebook貢獻。

Zookeeper:分佈式鎖設施,提供類似Google Chubby的功能,由Facebook貢獻。

Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。

Pig:大數據分析平臺,爲用戶提供多種接口。

Ambari:Hadoop管理工具,可以快捷的監控、部署、管理集羣。

Sqoop:用於在Hadoop與傳統的數據庫間進行數據的傳遞。


對大數據以及人工智能概念都是模糊不清的,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系 。從java和linux入手,其後逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關知識一一分享!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章