科創人·天雲數據CEO雷濤:打造正確理解數智的認知體系

雷濤 天雲數據CEO
榮獲國家級AI最高獎項:吳文俊人工智能科學技術發明獎。
2020年中關村高端領軍人才獲得者;首批CCF中國計算機學會大數據專委會委員;主導並參與匯豐銀行、中國移動、中國聯通、工商銀行總部等多個億級大型信息化項目規劃建設。


文 | babayage
編輯 | 笑 笑

兩年多求索,《科創人》逐漸形成了一套價值判斷標準:分享價值觀>分享方法,分享底層認知>分享經驗,分享解題原則>分享單題答案……選擇成長經歷爲敘事載體,是因爲人生的關鍵選擇、決斷中,最能體現其認知、原則、價值觀。

既然價值是目的、敘事是手段,就不應爲逢迎手段而降低價值傳遞的效率,因此《科創人》決定爲一些善於體系化分享認知、原則和底層邏輯的前輩大咖破例,對他們的分享內容放棄二開、呈上源碼。

第一位,有請天雲數據CEO雷濤。

範式、經驗主義失效
破壞力來自數據原生

科創人:越來越多的人意識到,這是一個傳統範式、經驗主義失效的時代,是重新尋找正確答案的時代,您認爲衝擊既有方法論體系的力量來自何處?

雷濤:每個時代的宏觀特徵一定不是單一要素導致的,但也一定有一些要素足以對其產生塑造作用。在我看來,基於先驗主義而非科學邏輯的那部分知識體系,正在被數據原生的全新知識生產體系所替代、瓦解。

今年(2021年)年初, 谷歌雲人工智能應用人工智能工程師戴爾・馬爾科維茨投入了一項有趣的研究:讓人工智能學習餅乾鬆脆、蛋糕鬆軟背後的科學原因,從而完成一個AI烘培菜譜。能否從烘烤工藝決定做餅乾還是蛋糕?機器學習的結果是:烘焙的工藝過程上已經不能定義清晰,只能從原材料的成分上加以界定。

餅乾和蛋糕的機器學習過程,以及其他無數的類似案例,告訴了我們一個事實:數字化世界裏的知識,是構建在輸入(成分)和結果上的,和我們人類所習慣的白盒過程推理認知(菜譜)相差很大。我們必須認識到,數字世界中,很多人類已有的知識判斷往往失效了,比如我們如何認定機器智能的圖靈測試方法,谷歌大會上已經證僞了圖靈測試識別機器與人。

數據原生將帶來新的知識生產革命,白盒的過程推理認知將被黑盒的數字長程演算替代,後者更準確,更強。

y=f(x),數據原生推動知識生產革命

科創人:大部分聲音還是將數字化帶來的變革稱爲轉型,但您很果決地使用了革命這個詞,您如何定義知識革命?

雷濤:我們從知識的生產所經歷的四個發展階段總結:

1 科學實驗: 遠古的鑽木取火到伽利略的比薩斜塔,知識從實踐中生產;

2 理論推理: 牛頓利用微積分數學工具推導,知識從公理公式中生產;

3 仿真計算: 基於已知對物理世界仿真建模,知識從規模計算中生產;

4 數據原生: 面向答案求解不確定過程,知識從海量數據關聯中生產;

數字經濟正在經歷“數據孿生”向“數據原生”發展階段,前者將人類已有知識應用於數字虛擬世界,尚處於第三階段,但後者生產適應於數字經濟的新認知,是另一個層次的存在。

數據孿生推動知識生產的階段,是試圖用已有的認知和知識結構,去解決虛擬數字世界裏的問題,用我們的知識白盒構建一個模型,做高性能計算去推理,知識計算更多依賴公理認知的已有知識自動化,算力基礎設施是超算中心的HPC高性能計算集羣。面對複雜動態個性化的計算場景,白盒建模的仿真遇到天花板,例如基於地球物理經典理論建模的氣象預報,在局地氣象和雷暴等突發極限氣象的求解失效。

數字原生是如何生產人類認知之外的新知識。就像Alpha Go,它沒有從人類最佳實踐優秀棋譜裏學習,沒有從已有知識裏學習,而是從行爲數據(黑白落子)中,面向結果(輸贏) 學習中間不確定性的過程,生產出新的知識,重構新的業務流程和實踐。例如電商推薦算法重構了零售商業,打車軟件的規劃算法重構供給和需求的商業組織形態。

數字原生在重構人類認知。

科創人:數據原生的知識生產方式,從生產知識到改變物理世界的傳導機制是怎樣的?

雷濤:舉個AI商業應用的例子,現代企業的業務模式正在經歷從流程驅動到數據驅動轉變的商業重構,人工智能已經可以替代傳統的經驗、規則、流程,重構商業實踐,促成新型商業決策。

這裏用一個函數公式來表達DT(Data Technology)時代的熊彼得增長模式,即核心價值體現爲y=f(x),y是結果,x是數據,f可以近似理解爲是某種規律——但必須強調,數字對規律的理解與人類不同,人擅長抽象歸納簡單規律,而數字是用複雜理解複雜。以金融領域爲例,當我們輸入大量消費者的行爲數據(x)與資金交易的結果數據y,通過數據庫和AI PaaS平臺的加工,得到的是反欺詐風險評估的模型f,而f可以成爲1乘100快速擴張複製的智能應用,不需要再將數據搬來搬去,只要將f投入到各個“反欺詐應用場景”就能創造價值,f作爲新的生產要素,從而在信息產業變革中獲得高成長。

新的生產方式和生產資料的變化帶來了效率的迭代提升,機器的角色從嚴謹地執行人類的指令程序,轉變爲基於目標進行迭代學習,將輸入和輸出過程中不確定的過程表達成一個軟件模型或智能應用程序,這將大規模提高軟件的生產效率,對於信息產業而言,這本身也是一次顛覆性的變革,DT時代科技企業的收入可以體現爲平臺工具+數據科學服務的複合性收入。

人類與機器共生的未來

科創人:當機器開始生產知識,人與機器的關係是否將應該顛覆性的變革?在您看來,未來人和機器的關係是怎樣的?

雷濤:在過去,面對大量的信息,人類一直認爲自己是萬物之靈,“你把信息交給我,我來控制然後進行判斷”,在這過程中誕生了無數的大師和專家。那麼經驗和專家給我們的是什麼呢?是一系列的報表,你能看到這個月的銷售數字、銷量等一系列的內容,然後依據這些數字做決策。

但當AI出現之後,人的最高價值不再是處理信息,而是培育AI,我們在設計好一個精巧的算法引擎之前,先把它扔到生產線上,然後再去規劃這個引擎本身的設計,像三千年前的羅馬競技場一樣,讓兩個深度學習的怪獸,自己彼此PK,得到一個最佳結果。

在這樣的模式下,人類和機器的角色被重新定義,AI的介入使得我們的角色提升了,我們不再是一個簡單的參與者,不再是在生產線上重複的工作者,而是更多地從事一些高精尖的工作。

數字世界≠物理世界
打破認知瓶頸,警惕數智“民科”

科創人:您多次提到了數據原生生產知識的方式呈現出黑盒狀態,無法爲人所準確觀察、理解,所以我們不能簡單地將AI計算的“f”理解爲規律?

雷濤:早期的AI也試圖想找到一些規律,比如我們在信用卡里普遍使用的評分體系,到底是三千塊錢額度還是三萬塊錢額度?但是我們越來越不再依賴於簡單地表達事物,而是依賴於複雜性,依賴於數字的表達方式。

AI還原了我們對整個世界複雜性的理解,當人類看到一棵樹,更習慣於進行抽象思維,不管它是什麼顏色的、有多少個枝杈等等,我們的第一反應:這是一棵樹;但當機器看到這棵樹時,會盡量捕捉到它的所有細節,這是機器的長處,它更容易表達複雜性。

必須要承認,這個世界上有很多問題,人類沒辦法抽象出簡單的規律,比如我們現在大量使用的視覺計算,怎麼才能讓圖片去認知這是一隻貓或者一隻狗呢?用人類的語言和思維去描述圖片信息是很有限的,這些有限的元素無法還原複雜內容;同樣,我們怎樣利用Alpha Go把16萬棋手的大局觀、棋風都抽象描述出來?

人類的語言在“還原複雜性”這一項上,黔驢技窮,而深度學習無疑給了我們一個描述複雜世界的方法,用一套複雜的數學體系和分佈式計算能力去應對,同時深度學習也給我們找到了一個認知地圖和拼接地圖的方法。

用複雜應對複雜,人類有了新的方法獲取更廣泛的認知。

科創人:那麼“不能理解數字世界的黑盒”是否將影響人們對這一方式的接納,進而影響這一生產力的普及?

雷濤:我確實有此擔憂。面對數字原生這場知識生產革命,最大的束縛就是,很多人習慣於用物理世界理解一切、定義一切,在我看來,這種認知會阻礙數字原生的普及與發展。

每一場知識革命,都伴隨着對“認知”的打破,人裝了翅膀是飛不了的,真正能讓飛機上天的是空氣動力;汽車出現的時候,人們還只是需要一匹更快的馬,馬力這個詞延續至今;古人捏土製陶時,肯定想不到如今光刻機在單晶硅片上灼刻集成電路……

新的知識革命,必然帶來新的認知體系,反過來說,錯誤的認知體系,必然拖累知識革命的腳步。


2000年前的秦人還是喫的和10萬年前古人一樣的穀物,但我們從火車到網絡,所有的一切都在加速。在過去的兩個世紀,我們燃燒的有機物殘骸是經過億萬年轉化而形成的化石原料,這些燃燒已經對星球前第四季造成了巨大消耗,也深刻影響着這顆星球多樣性生命平衡演進發展的進程,有責任的領袖設定了碳中和目標,掌握冪律規律,學習用更多“瞬間”科技力量去消費越來越稀缺短暫的時間-空間。
——摘自《數據原生的時空觀》作者:雷濤

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章