【個推CTO談數據智能】之本質及技術體系要求

安森,個推CTO
畢業於浙江大學,現全面負責個推技術選型、研發創新、運維管理等工作,已帶領團隊開發出針對移動互聯網、金融風控等行業的多項前沿數據智能解決方案。

曾任MSN中國首席架構師,擁有十餘年資深技術開發與項目管理經驗,在大數據處理系統、大規模併發平臺、分佈搜索系統、手機應用開發、無線通信領域和智慧金融系統等領域擁有豐富實踐經驗。

引言
中國移動互聯網的發展見證了中國大數據行業的蓬勃發展。數據智能作爲移動互聯網時代的自然產物,也是未來很長一段發展階段的核心所在。個推(每日互動)和業界的共識不謀而合,從2010年成立到現在,經過多年的發展,從一家移動互聯網時代服務於開發者的基礎推送平臺服務商,已經成長爲創業板的上市公司,也是國內首家在A股上市的數據智能公司。作爲專業的數據智能服務商,個推立足開發者服務,將不斷致力於用數據推動產業智變。

圍繞“數據智能”主題,我將通過一系列文章進行闡述。本文主要從技術角度來探討數據智能中涉及的各個方面,希望通過這一系列內容,能讓大家對數據智能以及所涉及的技術體系有一個比較清晰的瞭解。

本系列將從以下五方面展開:
01數據智能時代的來臨:本質和技術體系要求
核心內容:我們根據個推在數據智能領域多年的實踐來講講我們對於數據智能的理解,並且從總體上提出對應的技術體系要求。

02數據智能下的數據資產治理思路

核心內容:主要探討作爲資產後的數據如何進行治理,需要具備的基礎,具體如何實施,最終保證數據資產的安全、合理使用、以及價值創造。

03數據智能下的安全計算體系

核心內容:在保證數據資產的所有權和使用權分開的前提下,目前可以採用的技術和方法論。

04數據智能下的數據質量保證體系

核心內容:大數據之所以爲大,是因爲其規模以及多樣性,不同於傳統的小數據,可以很快去驗證其正確性,那麼可以採取什麼方法去保證數據的質量及可檢驗性呢?

05數據智能下的不同行業的業務探索實踐
核心內容:隔行如隔山,數據智能也具有鮮明的行業區分性,這個主題會講述幾個我們涉及比較深的行業的探索實踐,並總結一些經驗和教訓。

正文
大數據的發展歷程
本文是系列文章的開篇,首先聊一聊我們理解中的數據智能的本質;同時作爲公司技術負責人,和大家探討一下基於技術體系的要求,也就是數據智能時代,要從數據中體現智能,從技術方面需要做哪些事情。

什麼是數據智能,這個概念怎麼來的呢?

記得從2010年開始,隨着移動互聯網的興起,大數據也隨之出現在各個媒體網站和行業論壇,大家見面都會問一句:“你們搞大數據了嗎?” 其實大家對大數據該如何加以應用都不太清楚。

大數據的發展過程是什麼樣的呢?下圖比較清楚地對此進行了詮釋。

我把它稱之爲大數據成熟度模型。這個過程實質上我們理解也是數據從工具變成爲資產的過程,從一個輔助的東西變成生產資料的過程。現在在提的數字經濟,很多人試圖對此進行理論定義,以便把數字經濟和實體經濟從概念上區分開來,我的建議是就從數字是否作爲主要生產資料,是否作爲核心資產這個角度去界定,會比較簡單明瞭。

從這幾年的實際發展來看,大數據基本上按照上圖的這個模型在演進發展。

2013年左右,企業已經開始認知到數據價值,各個具有大數據生產環境的行業如電信運營商、政府、公安、金融等開始建設大數據平臺,收集並存儲企業業務產生的數據。同時,金融等行業也開始大量購買外部數據,希望通過外部數據快速挖掘數據的價值,彌補自身數據短缺的問題,不少從事數據聚合和相關服務公司獲得了發展機遇。

2015年,大數據進入到了監測階段,通過數據大屏等形式,實現對業務的監測,這是大數據最早、最先成熟的應用方向。對於政府、央企及大型國企而言,數據大屏、領導看板等數據展現應用是大數據最直接能夠反映價值的方式。

2017年,大數據平臺建設基本完善,單純數據展現開始難以滿足企業的多樣化需求,大數據開始與業務場景結合,基於大數據實現對業務問題的洞察,呈現出百花齊放的局面,分別應用在金融領域的精準營銷和風控反欺詐,公安領域的刑偵破案,工業領域的故障預測預警等。

企業對業務場景的洞察,單純靠簡單的數理統計已經不足以滿足要求,因此,數據挖掘、數據建模技術應運而生。AI建模平臺、數據科學平臺開始進入人們的視野,出現了一些主打建模平臺的創業公司,但更多公司將AI建模平臺內化成自身的能力,基於AI建模平臺,形成解決方案,幫助企業客戶落地大數據應用。

在2019年左右,大數據開始進入到業務決策階段,也就是說,由機器形成數據報表或者數據報告,業務人員進行決策變成機器直接給出決策建議,讓機器具備推理能力。例如,在外賣、出行場景,美團和滴滴的系統直接形成最佳調度方式,系統自動完成決策環節,將任務下發給騎手和司機。這種消費互聯網相對常見的場景,將在產業互聯網、企業業務場景中逐漸出現。也就是說,大數據開始從業務數字化階段向數據智能化階段邁進。

數據智能的特徵和定義
從上節中的大數據發展歷程中,我們看到數據智能目前對應的是決策、優化以及商業重塑階段,也就是說讓機器具備推理能力;而這些能力意味着自然語言處理(NLP)、知識圖譜(Knowledge Graph) 等認知技術的逐漸成熟,這也是爲何2018年NLP、知識圖譜成爲市場的熱點的原因。因此,數據驅動決策,數據驅動業務發展的企業新需求,也必然會帶動一批數據智能公司的興起。

未來,隨着技術更加成熟,大數據會從決策進入到最後一個環節,也就是業務重塑。很多執行環節可以由機器來實現,但仍然有很多環節需要人蔘與其中。因此,人機協同會迎來迅猛發展,從人工智能 AI (Artificial Intelligence ) 向人類智力增強 IA (Intelligence Augmented) 進發。

至此, 我們試着給數據智能做一個定義:數據智能就是以數據作爲生產資料,通過結合大規模數據處理、數據挖掘、機器學習、人機交互、可視化等多種技術,從大量的數據中提煉、發掘、獲取知識,爲人們在制定決策時提供有效的數據智能支持,減少或者消除不確定性。

大數據的發展歷程
數據智能首先需要有數據提供,而且數據在其中充當着核心資產和生產資料的角色,那麼對於數據的治理就顯得尤爲重要。什麼是數據治理(Data Governance) 呢? 我們經常聽到公司治理這個詞,公司治理在經濟學上主要解決幾個問題:
所有權和經營權如何分離?
公司所有者如何向職業經理人進行科學的授權及監督?
那麼對應地,數據治理也要解決類似的幾個問題:
數據(資產)有哪些?
如何讓數據所有權和使用權分離?
數據資產所有者如何向數據使用者進行科學的授權及監督?

數據智能的所有手段其實都是在解決上述的幾個問題。關於數據治理方面的內容我將在本系列的第二部分進行詳細描述。

同時,我們知道窮人和富人之間的差別在於對待財富的態度,富人更多的是從資產增值的角度去對待財富,想的是如何創造更多資產,並且讓資產不斷增值;窮人更偏向於從消費的角度去看待財富,賺來的錢更多的是用於消費。那麼在數據智能時代,如果我們想成爲一個“富人”,就需要考慮如何讓數據發揮更大的價值,如何找到其他合作者去聯合創造價值,但是數據不同於別的資產,其具有可複製性、難確權的性質,這就需要我們去解決數據安全問題,也就是目前行業內比較關注的安全計算技術,在本系列的第三部分我將對此進行詳細闡述。

還有一個需要我們關注的點是:大數據由於其具備的 4V 特性,特別是量大、種類多,有時候會讓我們對於其聚合或者產生的結果存疑,雖然有一些可以通過常識或者直覺去判斷,但是總是有說不出的味道。這就需要有一個質量保證體系來讓我們對於數據從產生到最終的各個環節有一個完整的檢驗過程,本系列的第四部分會對質量保證體系進行詳細描述。

在這裏小結一下,數據智能的技術體系至少需要包含三個方面:
數據治理系統
數據質量保證系統
數據安全計算體系

結語
數據智能作爲大數據時代一個重要且激動人心的階段,機會與挑戰並存。作爲本系列開篇文章,本文對該主題內容進行了一個整體概述,後續會對具體內容逐步展開,希望對大家有所幫助。

番外

文章構思於2019年7月24日,忽然發現這個數字很應景。7*24 是很多行業中服務的態度和承諾,表示一週每天24小時提供服務。在數據智能時代,個推的產品和服務也必定是全天在線,一週七天!

我們一直深耕於開發者服務領域,以消息推送爲基礎,發展了“用戶畫像”、“應用統計”、“一鍵認證”等一系列面向APP開發和運營的產品,構建開發者新生態。同時,個推不斷拓寬以數據智能爲核心的服務邊界,以創新的技術爲移動互聯網、品牌營銷、金融風控、智慧城市和公共服務等各垂直領域提供定製化的大數據解決方案。未來,個推希望用數據和技術的力量與更多的行業共築數據智能共贏生態!

更多精彩內容,請關注:個推技術學院

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章