大數據是何方聖神?爲什麼近年來這麼火?

衆說紛紜大數據

幾年前,有幸參與大數據的研究及如何落地實操的課題,短短几年,此話題已然風生水起。何爲大數據?爲什麼要發展大數據?大數據如何產業化?產業如何大數據化?大數據的未來會怎樣?未來的大數據會怎樣?……

這些都是最初我們的課題內容,時至今日,部分似已清晰,部分還很模糊。

 

關於大數據,

數學家會說:我最有發言權

政治家會說:遊戲規則第一

經濟學家說:還得迴歸供需

企業家會說:必需生成利潤

宗教家會說:一切都是幻覺

藝術家會說:這些跟我無關

歷史學家說:歷史可以量化

法學家會說:這回輕鬆多了

......

【大數據開發學習資料領取方式】:加入大數據技術學習交流羣458345782,點擊加入羣聊,私信管理員即可免費領取

中國社會幾千年的發展歷史,有個非常值得玩味的特點,那就是但凡某一新生事物甫一出現,伴隨的不是一邊倒地叫好,就是一邊倒地反對。

 

具有諷刺意味的是,往往一開始不被看好或者不叫好的新生事物最後還活得很滋潤,反之亦然。而這新生事物,無論思想的、制度的、技術的、倫理的,皆然。

 

未來是否還會如此,我看還會。當前,連普通老百姓都在談論大數據的話題。他們究竟懂不懂大數據爲何物已經不重要,反而重要的是——如果不談就意味着你的資訊與語彙陳舊。

 

大數據當前的呼聲之所以高,原因有仨:

 

1、自上而下的力主與力推。舉凡中國的事,只要是自上而下的展開,從來都是順風順水的;

 

2、經濟下行。伴隨產能過剩與“去殭屍化”的企業的壓力,我們寧可相信新思維與新工具的能量;

 

3、大數據有新亮點。在傳統與現代,尤其在新舊經濟交替發展的實證中,大數據作爲一種新生力量確實表現出它的偉力,甚而讓我們眼前爲之一亮。

 

當然,關於大數據方面的言論與書籍已經夠多了。你到任何一家書店,其顯眼處多數都是跟大數據有關的書籍;你隨便翻閱任何一家地方政府的階段性報告或者年度報告,大數據也是頻次提得較多的字眼。

 

大數據爲何方神聖?它從哪裏來?要到哪裏去?很顯然,我們之所以對大數據感覺不陌生,是因爲我們每天都在創造數據,包括我們說的話、做的事;我們之所以對大數據感覺似懂非懂,是因爲承載並分類大數據的科技工具讓我們望而生畏,加之我們的專家學者又把大數據說得玄之又玄。

 

大數據的本質類同於中藥鋪原理

 

從實證的經驗而論,欲認知A,最好的方式是找到類同於A的B。大數據的本質及其最終的產業化,無外乎歷經“事實發生——數據產生——數據採集——數據分類——數據精算——數據應用”。

 

(大數據的本質類同於中藥鋪原理)

就是說,你得首先有問題,然後產生數據,並且要會採集,採集回來以後還要甄選、歸類,最後再利用這些數據去服務於你的決策及其精準行爲。也可以說,大數據是歷史,而對大數據的精算及其應用則完全是着眼於未來。

中藥鋪的原理,與其何其相似乃爾,也即“海量病例——藥物存在——藥物採集——藥物歸類——藥物配對——對症下藥”。

【大數據開發學習資料領取方式】:加入大數據技術學習交流羣458345782,點擊加入羣聊,私信管理員即可免費領取

首先,它們建立的全部前提就有三樣:

1、病例確實是已經發生了(大數據);

2、找到“病症/藥物”相對應的(有效數據);

3、藥物(有效數據)是用來解決現實問題,也確實能解決實際問題的。

 

這個很好理解,假設沒有病例或者沒有醫生對於病變數據的研究,吃藥的動機就不會發生。而如果你試圖跑到沙漠去採藥,或者你本身就是個藥盲,當然這個藥物(有效數據)的存在就是句空話,因此,這是客觀的前提與起碼的意識基礎;

 

其次,藥物(數據)是本着解決問題也能解決問題而去的。但是並不妨礙其可以轉換成財富進而形成產業,有了交易,就有市場,然後自然就促成了產業;

 

最後,經過這麼多次交匯與持續性的聯動,便會形成盤根錯節的“人與藥(數據)、藥與藥(數據)、病與藥(數據)、人與人(數據)”的系統體系與多彩世界。

 

“病例——藥物——醫療”的循環過程中,各方的數據越來越大,集數量、多樣、速度、精度爲一體的“病藥醫療”體也愈發龐雜,但卻總是朝着人類所渴望的易控與可控的方向在向前推進。

 

所謂“病萬變藥亦萬變”,整個人類世界的醫療體系,其實就是遵照這病變與藥變來循環、升級、轉型而生成的。但是,其恆定的邏輯,一定是藥圍繞病來變,斷然不會是病來圍繞藥轉。

 

因此,我們可以說,理解大數據的原理,最好的切入口就是從觀照中藥鋪的原理開始。而所謂大數據經濟,則“數據產生的基礎、數據精算的能力、數據人才的培育、數據安全的管理”,一個都不能少。

 

大數據的核心是大計算

 

究竟什麼數據纔算是大呢?大型製造企業和倉庫多年積累下來的存貨海量數據,高達幾兆兆字節,算不算大數據?3000個PoS機的現金數據與幾千份工作表中的數據算不算大數據?每天發生在盈利組織、社會管理機構的圖像、視頻、文本文件、電子郵件交流、社交媒體,音頻文件以及其他算不算是大數據?

 

看是否經過有目的的大計算,而大計算所使用的標準就三樣:

 

1.多樣性

以上述的PoS數據爲例,儘管數量龐大但它依然不是大數據,但是如果把從供應商處取得的數據與其整合後所構成的帶規律性的供應鏈,則它們就成了大數據;

 

2.關聯性

以天氣預報爲例,氣象數據雖然僅僅是從一些基礎的系統取得(氣溫、氣壓、風速等),但數據關係卻極爲複雜,即使是最頂尖的氣象學家也不一定總能做出準確的氣象預測。這個時候,他們就會使用高度專業化的數據分析方法以作出更準確的預測。當然,從這個意義上講,地震的預報顯然是超過目前人類的認知的,而隨着未來智能社會生態與人工智能的進步,這個問題估計會得到不斷改善;

 

3.因果性

很多人把因果性習慣地理解成經驗論,其實是失之偏頗的,因爲經驗論只是一種很狹隘的認知論。換句話說,經驗論多數是線性思維,但是因果論卻包含了線性與發散兩種思維。

比方說,當你想知道口紅十月份的市場情況的時候,你所要的數據就不僅僅是你自己的採購記錄了,你還需要整合社交媒體和其他外部市場數據,才能得到最佳答案。

 

(KK對數據的未來定義)

換言之,大數據裏真正有效的數據是“軟數據”,而硬數據多數只是陪襯。總之,數據發生是前提,數據採集是手段,數據計算是核心,數據轉化是目的

 

高度智能化是大數據發展的自然結果

 

人類活着的基礎動力就是對未知領域(或祕密)的可持續探究並獲得自我認證。這祕密,既有自然界的,也有人類自身的。而能夠獲得稱之爲掌握了自然祕密或者人類祕密的人,無疑都被稱着精英羣體。

 

我們今天對於大數據及其大數據產業的良好預期,多數是建立在渴望它能幫助我們釋疑諸多困惑之上的。

 

人類面對大多數的恐懼、不解、迷惑、誤會、衝突,一開始的聖人們都告訴我們要靠內省。但事實證明,內省這種事只能是少數人做得了,芸芸衆生還得靠社會律令或者物質性的認知工具。

 

在X光放射技術及其儀器還沒有出現之前,凡遇見我們胸口的劇痛,我們或者整天憂心忡忡,或者坐以待斃。大數據已經熱了幾年,直到2016年李世石與AlphaGo的人機大戰,方纔引起我們極大的震撼。

 

於是,我們在半激動與半恐慌之際,迎接着這即將到來並被謂之“人類最後的發明”的人工智能(AI)時代。無疑地,AlphaGo使我們已經看到,人工智能通過自己和自己下棋積累經驗的速度遠遠超過人類。

 

這樣的情況下,會給我們這個社會產生什麼樣的影響?答案是:智能化時代就是以“會學習的機器”作爲代表來幫助人類更好地探究未知領域。

 

回顧歷史,機器把我們從非常繁重的體力勞動裏解放了出來,且勞動效率也跟着提高了很多倍,同時也讓我們的生產進入了專業化的模式。

 

就是說,我們生產出來的東西都是標準化的,大規模的去做,由此也給整個國際社會產生了很大的影響。包括國際貿易、商業化,甚至我們現在的社會制度,都跟工業化、機械化有着直接的影響和關聯。

 

現在我們面臨的下一個升級與變化,就是經過一個不會太久的信息化後的智能化時代。與機械化時代的“標準社會”相比,其表現出來的更多是“個性社會”,又稱之爲“非標時代”。

 

誠然,人工智能也還只是智能時代的一個側面,而立體的智能社會,應當是一個高度智能化的物聯世界。

 

要問——我們爲什麼還需要經歷一個信息時代後才能到達數據智能時代呢?信息,多數是經過過濾並處理了的原始數據,其純度同樣會給決策者帶來諸多的假象與不確定。而數據純度的保證,則是需要配套系統的社會智能環境及其職能工具的。

 

故此,信息互聯網階段與智能物聯網階段是不可以同日而語的。互聯網是一個信息共享體系,所有互聯網的商業模式,都是在信息共享上做文章,而物聯網卻是一個感知體系,一個感知互動系統

 

互聯網時代還是“人與車聽從紅綠燈”,而物聯網則可以做到“紅綠燈是聽從併爲人與車進行有效分流服務”的。

 

近年的互聯網金融,爲何禍患不斷,因爲互聯網金融雖然讓金融信息對稱了,但是這個對稱信息從哪兒來的呢?它還是人輸入的———互聯網的所有信息都是人輸進去的。

 

而如果是物聯網金融,那麼它所有的信息,都是通過物聯網的終端,以社會屬性的架構,從實體世界感知後再對鏡像作出的反映,它不會有假,頂多可能存在局部的不準確而已。

 

大數據是土壤,更是一種思考方式

 

如果任何事物的發展均遂我們的願,那當然是件美事,但事實並沒有那麼簡單。重點來講就五個板塊:

 

數據的開放方式與開放程度

個人隱私的採集與保護

誰採集誰精算誰管理

數據與事實

人與智能機器

 

1.數據的開放方式與開放程度

 

2009年1月,隨着美國總統奧巴馬簽署了《開放透明政府備忘錄》,並要求建立更加開放透明、參與、合作的政府以來,世界各國政府都在陸陸續續地在進行着這項工作。“目前我國信息數據資源80%以上掌握在各級政府部門手裏,‘深藏閨中’是極大浪費”,某領導人以這句非常形象的比喻,準確地點出了當前我國政府數據開放的痛點。

 

2015年9月,國務院印發的《促進大數據發展行動綱要》,提出要加強頂層設計和統籌協調,大力推動政府信息系統和公共數據互聯開放共享,加快政府信息平臺整合,消除信息孤島,推進數據資源向社會開放。

 

從全國來看,目前我國政府數據開放的實驗仍集中在沿海發達地區,已正式上線開放數據項目的城市和地區包括:北京、上海、武漢、無錫、湛江、佛山南海、寧波海曙、深圳羅湖、深圳坪山、深圳福田和廈門海滄。當然,中西部也在逐漸開放中。

 

所謂開放數據,指的就是將原始數據及其相關元數據以可以下載的電子格式讓第三方自由使用。它不僅意味着公開數據,更要讓數據可以重複使用與自由加工。

 

我國的數據開放肯定是一個漫長的過程,這裏邊既有體制上的原因,也有觀念上的問題。

 

一方面,政府部門往往把數據資源看成是本部門的權力資源,“你的就是你的,我的就是我的”,部門間的數據共享尚且如此,焉談對社會的開放;另一方面,各部門的數據獲取途徑、篩選標準不同。

尤其一些數據還是紙質記錄,數據質量參差不齊,無疑也加劇了開放的難度。光政府的“條數據”如何實現“塊數據”就是個很大的難度。

 

另外諸如公民的社保繳費記錄,患者的就診記錄,企業的工商登記信息……

 

這些數據的產權是個人與企業,還是屬於政府部門?如何做出清晰界定,也是個問題。不過,隨着數據的愈發龐大,海量的互聯網聚集而產生更多的“互聯雲”的未來,這種情況會否得到改觀呢?或許會吧!

 

2、個人隱私的採集與保護

個人數據與其在法律及倫理層面上不可以公開的隱私之間如何界定則是個頭疼的問題。截至目前,我國還尚未出臺全國性的數據隱私保護法規,而在全國首部地方性大數據法規《貴州省大數據發展應用促進條例》則規定:“數據共享開放,應當維護國家安全和社會公共利益,保守國家、商業祕密,保護個人隱私,保護數據權益人的合法權益”。

 (可怕的數據泄密及其泄密途徑)

3、誰採集誰精算誰管理 

今天,收集人的行爲數據在很多國家已經引起很多爭議。包括能不能植入、怎麼植入,及其植入之前要不要告訴用戶?如果收集數據需要用戶授權,這樣用戶就有權告訴你數據如何使用,那時很多大數據公司就將不再是大數據公司。

 

因爲在大數據採集與作出服務之間是契約關係,同時也是需要作出快速回饋的過程。顯然,單純意義上的大數據公司就很難滿足這種交易模式。

 

不過這樣一來,行業格局又要意味着重新塑造,因爲目前大的互聯網企業在大數據方面是做得非常領先的。

 

4.數據與事實

提及大數據的現實與未來,我不由得想起著名的奧地利哲學家維特根斯坦的那句名言,“世界是事實的總和,而非事物的總和”。

 

那麼,數據究竟是事物還是事實?是數據在追趕事實,還是事實在製造數據。個體固然有其獨自冷靜思考的能力及其認知的辨識度,但畢竟“勢單力薄”,正所謂“一花一世界,一葉一菩提”。

 

羣體當然也可以共享更多的數據,但集體能否產生最終的智慧,還是值得商榷的一件事。

 

人類的能力,確實強大,但那是需要放在一個大歷史的框架裏才能洞見的。一定時空的人們,多數都是在盲人摸象,設使大象是事實,而構成大象的成分是這衆多的數據,那麼會否數據越多,我們對於大象的判斷就越接近事實呢?

 

通過大數據去認知事實並形成較好的預期決策,我們不但要相信大數據的偉力,還得要研究如何讓數據更好地接近本質與事實。

 

誠如我們上述以中藥鋪來喻大數據原理一樣,如果這中醫師的方子配得不合理,那麼藥的數量及其質量非但沒有意義,甚至還會造成更復雜的結果。採藥、診斷、開方、熬製、服用,一個都不能少!

 

因此,數據大,只能講它逼近事實,但不等於說就是事實。相反,在一個信息愈發超載的時代,我們思考得更多與更深的應當是如何在紛繁複雜的數據世界裏迅速找到能夠滋養自身的信息精華,不然,還是遠離真相。

 

5.人與智能機器  

 

對於多數人而言,生產工具往往就是我們最實在的拜教物。幾千年來,人類就是通過技術的力量生產了海量的工具,既讓其勞作,也讓其保命。更多的,是我們創造了工具,往往又被工具所束縛。

 

今天,人工智能的發展已經以其迅猛之勢在往前推進,而無論其精算能力抑或智能程度,均創歷史之新高。

 

如果,三個臭皮匠就頂個諸葛亮的話,那麼,一百個、一萬個乃至一千萬個呢?未來我們如何跟人工智能機器相處?答案,也許就在我們的發心裏。

 

機器人之所以在近幾十年裏得以長足的發展,一方面是因爲因爲人類所固有的對於未知世界的探究欲,第二方面就是全球(尤其是發展中國家)都階段性地遇到劉易斯拐點(人口紅利消失理論)。

 

但是,機器人終究還是機器,並非如未來學家所鼓吹的那樣危言聳聽(況且他們在二戰後就開始了這項宣傳工作),未來真正稀缺和寶貴的資源還是具有進取精神和進取能力的創業家。

 

因爲,構成人工智能真正威力的是隱藏於其後的人類學家、神經科學家、心理學家、金融大家、政治家、情報專家、法律專家、經濟學家等等。

 

說到底,人工智能還得靠軟件來支撐其行爲。說到可怖的地方,是人與人之間是通過機器人來實現彼此的意圖,進而會加劇更大的兩極分化,從而造成以“無法直面溝通”爲框架下的社會的不確定性。

 

機器固然可以看病,但真的治病,還得需要作爲醫生的人。

 

因此,大數據的全部價值是建立在卓有成效的大計算之基礎上的,不然,反而是種負擔。

大數據話題,很古老,因爲從上古社會的結繩記事時就開始了;同時它又很新穎,新到每個人都可以談。

 

大數據是歷史,只有對其精算並實現轉化,纔是未來

 

大數據,是資源,也是土壤,更是一種必要的思考方式。

 

大數據究竟顛覆了什麼?如果說一定有,則一個是我們的思維模式,一個就是很多已然約定俗成的價值觀將面臨重新評估。

 

流行的東西多半有毒。作爲現代公民,對於被炒得沸沸揚揚的現象,首先要冷靜,並找到本質。本輪產業革命是發軔於信息領域,自然是從生活方式倒逼出來的生產方式。

 

數據如何平權,以及互聯網的原罪是什麼?這些道理數據精英們自然心裏有數,吃瓜看客無需起鬨,更無需像看演唱會似的在力捧與一邊倒的熱議。

 

畢竟,一點點的移動支付,一點點的智能溝通,斷然不能代表一個民族與一個國家的科技實力。

 

我們不要他太依賴於接受經濟學者、企業家、專家、媒體人和政府官員們的片面解釋,而未曾透過表面挖掘那些既不指向命運、也不指向我們自己的深層真相

【大數據開發學習資料領取方式】:加入大數據技術學習交流羣458345782,點擊加入羣聊,私信管理員即可免費領取

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章