數據智能時代:數據體系建設的實質、思路和方式

二十一世紀,互聯網新科技層出不窮。伴隨着大數據、雲技術以及整個算力的發展,人工智能技術的研究及應用也迅速壯大,在語音、圖像和自然語言方面取得了卓越的成績。更爲重要的是,政府也在大力發展數字經濟,包括黨的十九屆四中全會首次增列了“數據”作爲生產要素,這也進一步反映了隨着經濟活動數字化轉型的加快,數據對提高生產效率的乘數作用凸顯,成爲最具時代特徵新生產要素的重要變化。個推作爲專業的數據智能服務商,於2010年成立至今,在大數據技術的發展過程中,收穫了一些成果,也得到了自己的經驗和體會。

2019年3月,個推(每日互動,300766.SZ)在創業板上市,主打數據智能。公司在該領域積極佈局,並在實踐中探索總結了數據沉澱、數據挖掘和數據應用的“三步走”數據智能方法論。關於底層,個推提供了消息推送、用戶畫像、應用統計、一鍵認證四種開發者服務,同時沉澱了海量數據;中間層是個推引擎層,通過對數據脫敏、篩選、清洗、整理,並經深度挖掘後建模,自主構建“個推大數據平臺”。最上層爲數據應用層,提供品牌營銷、風控服務、人口空間規劃、公共服務等多種大數據服務,增能諸多垂直領域。

數據智能時代:數據體系建設的實質、思路和方式

本文將結合個推實踐,主要圍繞三個方面進行展開:數據智能時代的特徵、企業面臨的實際挑戰、數據智能體系建設思路。

數據智能時代的特徵
數據智能時代已經來臨,如同《大數據時代》中闡述的那樣,我們發現並印證了大數據對我們思維、商業、管理等方面存在着巨大的影響。

思維變革

在思維變革方面,我們認爲數據智能時代的特徵可以歸納爲三點:更多、更繁雜、更相關。更多,意味着人們不再依賴於一小部分數據,而是使用全部數據,並從第三範式向第四範式躍進。

那麼,第三範式和第四範式的區別是什麼呢?以“霧霾形成的原因”爲例進行說明。第三範式的霧霾研究過程是:首先,提出問題。比如說,想了解霧霾是什麼?怎麼預防?其次,提出理論。根據已有的機理認識,霧霾天氣的形成不僅與源頭、大氣化學成分相關,還與氣象因素,包括地形、風向、溫度、溼度等有關。而參數之多,超過了我們常規監測的能力範圍。

爲此,我們只能去除一些看起來不怎麼重要的參數,保留一些簡單的參數,提出一個理論。然後收集數據、模擬計算,並根據計算結果對理論進行修正。最後獲取可信度比較高的結果,對霧霾天氣進行預測。

相對應地,第四範式的研究方法是怎樣的呢?它的第一個環節與最後一個環節跟第三範式相同,但在中間兩個環節兩者順序是相反的,即在第四範式中,我們要先進行數據收集再形成理論。

在第一步問題提出後,我們首先去做的並不是創建一個理論模型,而是把所有可能有用的數據收集起來,然後在此基礎上通過機器學習的方法,或者說人工智能的方法,找出對於霧霾形成影響較大的因素,進而提出有關理論。最後,進行預測,驗證結果。得益於大數據的出現,第三範式才能向第四範式躍進,這也帶來了整個思維方式和方法論的變革。

思維變革的第二個特點是更繁雜,即從精確性向概率性的轉變。精確性作爲信息缺乏時代和模擬時代的產物,要求數據保證質量、減小誤差。而大數據時代,海量的數據使我們無法一一驗證數據的準確性。更多情況是,我們通過整個數據的分佈,找出數據背後的概率性,然後找到有用的數據,剔除沒用的數據。

思維變革的第三個特點是更相關。數據之間不是因果關係,而是相關關係,核心是建立在相關關係分析法上的預測。
總結起來,大數據時代思維變革的特點可以歸納爲:

  1. 改變操作方式,使用收集到的所有數據,而不是樣本;
  2. 不把精確性作爲重心;
  3. 接受混亂和錯誤的存在;
  4. 側重於分析相關關係,而不是預測背後的原因。

商業變革

在商業變革方面,數據智能時代的特點主要有三:一切皆可量化、無限的創新可能、數據的選擇價值。

“一切皆可量化”指的是隨着數據智能時代的發展,我們會發現身邊所有的東西都在產生數據,也就是說我們所處的現實世界,與信息世界存在着對應關係。未來,我們物理世界裏的每一種事物都將與數字孿生世界裏的一一對應。

數據的真實價值猶如冰山,首要價值只是上面看得見的部分,而背後蘊藏着“無限的創新可能”。數據在完成直接的業務用途之後,看似好像沒有用了,但是一旦跟別的行業數據結合,我們會發現其協同效應非常強,可以創造出巨大的使用價值。也就是說,目前看似沒有價值的業務數據或許在以後能發揮出重要作用。因此我們建議數據較爲豐富的企業或者公司,最好能從現在開始,把業務數據通過某種方式予以保存,譬如採用數據湖的方案。

數據的價值是其所有可能用途的總和,面對這些無限可能的潛在用途就像是在選擇,這些選擇的總和便是數據的價值,即數據的選擇價值。

總結起來,在商業變革方面,數據智能時代的特點主要可以概括爲:

  1. 數據的選擇價值意味着無限可能;
    2.數智時代要求我們對待數據有別於傳統資產;
    3.數據的創新意味着很大的不確定性。

我們面臨的實際挑戰
數智時代我們面臨挑戰的本質在於數據組織及管理要求(側重穩定性)與業務的創新需求(側重靈活性)的衝突。

使用數據核心要解決的幾個問題
數據不可知:用戶不知道大數據平臺有什麼樣的數據,也不知道這些數據和業務的關係是什麼。雖然用戶意識到了大數據的重要性,但不清楚平臺中是否存在能解決業務問題的關鍵數據以及該如何尋找相關數據。

數據不可控:數據不可控是從傳統數據平臺開始就一直存在的問題,在大數據時代表現得尤爲明顯。缺乏統一的數據標準導致數據難以集成,缺乏質量控制導致許多數據因質量過低而難以被利用。

數據不可取:用戶即使知道自己業務所需要的是哪些數據,也不能自助便捷地拿到數據。實際上,數據獲取需要很長的開發過程,漫長的需求響應與大數據時代需要快速出具問題解決方案的目標相違背。

數據不可聯:大數據時代,企業雖然擁有海量數據,但企業數據知識間的關聯還比較弱,尚未把數據和知識體系關聯起來。此外,企業員工難以做到數據與知識之間的快速轉換,無法對數據進行深入探索和挖掘,這導致數據的深層價值難以凸顯。

我們在公司內部對數據問題進行收集,發現存在幾大困難點:業務響應速度慢、數據質量問題頻發、數據使用難且取數慢、開發效能低、試錯成本高以及數據能力重複建設等。

數據智能技術體系建設思路
總體目標
1.敏捷地支撐業務部門的創新需求,打造快速響應商業需求的服務能力;
2.把不同領域的數據實時打通,體現數據的最大價值;
3.把數據作爲資產進行管理。

大多數情況下,我們通過業務的需求,反過來推進公司數據智能體系的建設,其直接的價值體現是成本節約、效率提升和質量提升。

建設思路和原則
1.主要面向內部客戶,特別是公司的研發人員及建模人員,以提高業務開發效率爲目標;
2.做好元數據、血緣關係管理,提高數據治理程度,以保證數據的質量和安全;
3.提煉公共服務能力等複用程度高的能力優先建設,如:數據提取分析速度、數據治理平臺、數據開發平臺;
4.數據能力原則上由相應領域熟悉業務,有一定技術積累的團隊一起參與建設;
5.能力建設需要重點考慮幾大標準:穩定、易運維、可運營、可審計。

在能力建設方面,公司可以設立三層結構:底層是技術中臺;中層是數據中臺;上層是業務系統。需要注意的是,有了平臺並不意味着問題就解決了。我們認爲最理想的方式是平臺與人的能力相結合。平臺沉澱證明了的、可複用的能力;而人更多地去應對創新需求,利用知識創造工具和完善平臺。這也是一個螺旋上升的過程。平臺需要專門的人進行運營、推廣;業務需要有會使用平臺的、能快速產生解決方案的人,來保證與平臺人員的良好溝通與協作。

基於這樣的想法,個推在公司的組織保障上構建了這樣一個體系:上層目前是虛擬的數據中臺部,在合適的時候會成爲一個實體部門。架構組與技術組參與建設數據中臺。此外,我們把部分與數據相關的技術人員派駐到業務部,這樣不僅能更好地把數據應用於業務,還能讓他們把業務部門的使用效果及問題予以反饋,以此形成一個閉環,我們把它稱之爲DO(Data Owner)。

互聯網的發展將大家帶入了大數據時代,而數據智能時代是大數據時代一個重要的發展階段,機會與挑戰並存。個推將積極把握機會、應對挑戰,不斷探索數據智能與行業應用的結合點,以創新的技術爲開發者提供增能服務、爲移動互聯網和品牌營銷等各垂直領域提供定製化的大數據解決方案。未來,個推將持續用數據的力量,攜手更多的行業夥伴,創建數據智能共贏生態!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章