知識圖譜+數據中臺,會是未來中臺戰略的答案嗎?

3 月 27 日,明略科技宣佈完成 20 億人民幣的 D 輪融資,宣佈戰略升級。在時隔近 8 個月後,明略科技將數據中臺與知識圖譜相結合的一系列動作,可能會成爲其在“擁擠”的人工智能賽道中勝出的關鍵所在。

熙熙攘攘數據中臺這一年過去了,關於中臺的爭論還沒有停止,有人認爲這是軟件開發商故意炒作的話題,也有人認爲這是企業數字化轉型的必經之路。現階段市面上那些普遍的“中臺架構”,已經被市場所實踐驗證過的架構,是最正確、最具效率的中臺體系嗎?

隨着人工智能領域的不斷深化,各種新技術層出不窮,中臺架構和其它平臺一樣,也面臨着“與時俱進”和升級迭代的局面。目前的人工智能應用主要集中在對圖片、視頻以及語音能力的探究,在知識推理、因果分析等領域還缺乏相應的研究。知識圖譜,作爲人工智能領域,打通感知到認知這一過程中現階段最有效的技術和工具,其承擔着非常重要的作用。

作爲國內知識圖譜領域的領軍者之一,11 月 15 日,明略科技集團在上海舉辦以“FASTER 聚變·增長新動力”爲主題的 2019 數據智能峯會,宣佈“打造智能時代的企業中臺”新戰略,同時推出“新一代數據中臺”。

在當前國內企業市場中臺“氾濫”的情況下, 明略科技高調踏入中臺領域的原因是什麼?明略科技將自身最拿手的知識圖譜融入到數據中臺的體系中,兩者之間如何發生反應?帶着這些問題,InfoQ 採訪了明略科技集團技術中心負責人楊威以及知識圖譜技術負責人孟嘉。

顯然,明略科技不想以中臺投機者的身份參與到市場中,而是要做一個行業的顛覆者與創新者。在接受 InfoQ 的專訪過程中,他們反覆向 InfoQ 強調明略科技在數據中臺以及知識圖譜領域內所做的一系列創新。

數據中臺的核心 -DataAPI

數據中臺火的十分突然,似乎年前還在炒概念,年後突然就冒出來各種中臺的實踐。當然其中有跟風的因素,但根本原因在於,“數據”的價值正在越來越受到企業的重視,數據正在成爲企業最核心以及最重要的生產資料,成爲決定企業業務轉型的關鍵因素。企業需要一個源源不斷的輸出數據服務,數據洞察的能力源泉,數據中臺的出現就成了順理成章的事情。

明略科技集團技術中心負責人楊威認爲,中臺的作用在於打通固有多業務系統之間的數據壁壘,融合各個不同業務系統間所產生的數據,通過數字化的運營和驅動來支撐前端業務的快速變化,從而產生更大的價值。

這一年來,大家都在熱衷於討論什麼是“數據中臺”,不只是互聯網企業,許多傳統企業也存在着將數據整合起來的需求。目前市面上也有很多關於數據中臺的“科普類”文章,但是大多都浮於表面,對於數據中臺的內在覈心 - 數據,卻很少提及。

如果將數據中臺理解爲企業內部的數據大腦,這個數據大腦主要是用技術鏈接計算平臺的數據處理能力,來負責對數據進行收集、分析、下發、整理等一系列的工作。因此,數據中臺不但要將很複雜的大數據處理技術(流計算、批量計算、實時採集、離線採集、機器學習)封裝起來,形成計算平臺;同時進入數據中臺的數據都需按照規範的建模方法論將數據形成主題域模型、形成標籤模型或者算法模型,這類數據模型就是數據中臺的最核心資產。

數據模型是通過數據中臺內的數據建模體系模擬計算出來的結果,這類數據建模體系在中臺內被稱爲 DataAPI,是整個數據中臺建模體系的絕對核心。作爲數據中臺的核心,DataAPI 是連接前後臺的橋樑,通過 API 的方式提供數據服務。因此,如何讓 DataAPI 生產得更快,如何讓 DataAPI 更加清晰,如何提升 DataAPI 的數據質量等這些圍繞數據中臺核心功能的能力,一定是數據中臺中最重要的能力。而這,也正是明略科技將知識圖譜引入到數據中臺體系內的重要原因之一。

如何將領域知識圖譜融入在 DataAPI 中

無非兩種方式,一種是實現從面向業務過程的數據組織方式到面向業務領域的數據組織方式的轉變,另一種則是深入挖掘常規數據中臺體系下的隱性數據關係,這兩者可以相互存在。

當前市面上的中臺基礎模型大同小異,這是因爲其根本數據組織形式沒有發生改變,都是通過將數據組織爲傳統的表結構這種普通的關係。

這種組織數據方式即面向業務過程的數據組織方式,通俗來說,就是將數據物理集中在一起。從存儲的角度來看,數據就是一張張獨立的表結構,如常用的會員表、訂單表等,表與表之間無法再數據層面整合到一起,需要通過外在的輔助工具才能進行邏輯與數據梳理,因此這種形式又被稱爲物理集中,而不是邏輯集中。

這種傳統的數據倉庫,其優勢在於統計性報表,同時這也是圖數據庫的劣勢,因爲圖數據庫的運作形式是在模型之間的不間斷遊走,這會是一個非常長的離線模型,通過索引以及一些技術,把統計的引擎也加載知識圖譜中,所以用的是混合存儲,也可以將其理解爲用空間換時間,但是難點在於數據的一致性,因爲之前已經將整體的數據拆散在不同的存儲下,對於數據的最終一致性非常難保證。

將知識圖譜引入到數據中臺後,實現了面向業務領域的數據組織方式。通過明略科技所積累的知識圖譜技術,將知識圖譜融入在中臺數據模型這一層,將所有隱性的最基礎的語義,全部以顯性的形式放到知識圖譜裏進行呈現,如何實現對於數據間隱性關係的挖掘?明略科技採用了以下兩種方式:

明略科技領域知識圖譜落地流程

將領域知識圖譜引入到數據中臺下的數據模型層,基於圖挖、機器學習技術來實現隱性關聯關係挖掘,從而實現面向業務領域數據組織方式的轉變,並以此來滿足圖譜節點相似度測算、節點重要性測算、關係圖中的頻繁模式子圖、多節點子圖挖掘、社區發現、兩兩關聯、聚類等業務需求。

此外,基於業務規則定義,也可識別潛在的數據關聯關係。基於軌跡信息、標籤規則、交易規則、一致行動人規則等業務知識的輸入,形成實體關係事件的知識圖譜數據模型,將數據模型引入到知識圖譜計算引擎中,到如同一數據視圖,基於 DSL 語法描述規則邏輯,編譯生成可以在 Spark 上運行的 Scala 代碼。

這賦予了數據中臺深入觀察數據潛在價值的能力,將所有隱性的最基礎的語義,全部以顯性的形式放到知識圖譜裏進行呈現,將整個數據打通,這是明略特色的數據中臺和之前的中臺最根本的區別,也可以將其視爲數據中臺從數據整合分析平臺向數據自動化智能學習平臺邁進的一個重要節點。

目前,知識圖譜作爲知識的一種形式,已經在語義搜索、智能問答、數據分析、自然語言理解、視覺理解、物聯網設備互聯等多個方面發揮出越來越大的價值。中臺需要知識圖譜來爲其提供更高效的數據收集、處理、分析及可視化能力,知識圖譜需要中臺來爲其提供完美適配的環境,知識圖譜與數據中臺的結合,看起來就是互相需要的一個過程。

中臺 + 知識圖譜 = 明略科技的特色數據中臺

像企業轉型中臺一樣,中臺與知識圖譜的結合也是一個自然的過程。

明略科技集團知識圖譜技術負責人孟嘉提到,整個數據中臺大體系是由一整套方法論組成的,把知識圖譜的理念引入到數據層和應用層,就像企業轉型需要用到數據中臺一樣,這是一個自然而然的過程。

明略科技將知識圖譜融入在智能化知識服務這一層有十分重要的意義,一方面,這相當於將知識圖譜視爲下一代的數據組織形式、新的數據存儲形式以新一代數據基礎設施,另一方面,對比上一代或者現在主流的數據存儲形式,知識圖譜確實能夠更好的在數據中臺內部完成人工智能的工作。

特色一:數據中臺的數據服務層

明略科技的數據中臺基礎模型與市面上的其它中臺相比,是將知識圖譜的概念加到數據基礎模型裏。孟嘉提到,知識圖譜有一個特點,就是面向業務領域的數據組織形式,可以抽取實體關係、事件、標籤、模型、規則等條件,存成以圖爲基礎的數據形式,而不是傳統的表結構。這些數據中包括如何保存推理規則和專家經驗,使得知識圖譜的數據真實性大大提升。

特色二:將知識圖譜當作數據的基礎組織與存儲形式

傳統的數據組織形式類似於數據倉庫這種,其中沒有突出知識圖譜的理念。數據中臺的作用是將數據整合起來,以 API 接口的形式統一給前臺賦能,以適應前端快速的業務變化,其中包括共享機制、協作機制等,都是通過數據層進行傳輸。知識圖譜通過貫穿這一層面,通過自然語言等形式的輸入,可迅速調用 PB 及以上量級數據之間的關係,系統自動推理輔助分析並得出結果,可以將這看作是新型的數據存儲與組織形式。具備以下幾個功能特點:

混合存儲技術,包含圖數據庫、列式存儲、全文索引、文件存儲等;擴展的數據模型,涵蓋時間序列事件、地理位置屬性以及圖譜變遷歷史;知識查詢語言,基於知識圖譜數據庫來打造面向實體 - 關係 - 事件 - 屬性等數據類型的聲明式查詢接口;時空多軌分析,基於時間和地理範圍的軌跡碰撞,通過軌跡明細檢索,形成包含二維關聯信息、時空信息、歷史狀態信息等多個層次的知識基礎;複雜圖譜分析,具備在線隱性關係擴展、多維度組合條件搜索碰撞以及最短路徑分析等方法。通過將上述的一系列方法論和具體的功能實現,明略科技將自身在領域知識圖譜中的技術,融入到數據中臺,爲企業打造真正具有行業 Know-How 的新一代數據中臺。

打造最具行業 Know-How 的數據中臺

在明略科技看來,最具行業 Know-How 的數據中臺,一定是由“數據和知識雙驅動的”數據中臺,如果只是單方面的從數據角度去驅動,會逐漸禁錮中臺的發展。數據中臺,應該是一個鍵智能推薦、智能營銷、領域圖譜、AI 決策爲一體的平臺,而並非企業數據的中轉站。

明略科技通過在傳統中臺優勢的基礎上對數據做進一步打通,進一步挖掘數據內部的價值,應用知識圖譜於中臺內部建立起多維度數據模型,確保中臺要擁有持續學習的 AI 能力基礎。

明略科技特色的數據中臺,最主要有三個方面特點:

協助企業維繫統一的數據組織架構

明略科技集團技術中心負責人楊威說道,“如果想要了解企業的業務情況,最好的方式就是了解企業用了哪些數據。”以前是從業務去查看數據,在具備知識圖譜體系後,可以從數據反推業務,通過知識圖譜就能瞭解到當下行業內的重點以及相關企業的主營業務範疇;

另外,極高的可擴展性也是企業內部架構的必須。現階段大多都基於關係型數據庫來構建數倉或基於大數據來構建數倉,這兩者本質的區別在於基於大數據所構建的數倉的承載力更強,能夠實現更加複雜的模型計算,維度的計算量也更大。但是也存在侷限性,就是基於大數據所構建的傳統數倉,並沒有突破傳統通過關係圖來描寫數據的方式,牽一髮而動全身,往往新增數據還需要同時新增與之相匹配的表、類型和相應的業務系統,步驟非常繁瑣。

而知識圖譜是基於整個網絡圖來進行數據描述,在有新的數據種類、節點加入進來後,通過將這些新數據和其它已有數據建立新的關係,保證數據不斷層,從而能夠爲中颱體系內的數據基礎設施賦予可持續成長的能力。除傳統數倉本就能做的工作之外,一些諸如畫像、推薦、問答、搜索等新的業務場景下,可以直接在圖譜上做,不需要重複構建搜索、畫像等業務系統。

提升數據的協作性

中臺畢竟是一個巨大的系統和體系,需要不同的人進行相互之間的協作。這個協作,包含有幾個含義:提升每一個人對於數據的信任度。通過監控每一個數據的生命全週期,生產 - 處理 - 消費的全過程,以及過程中所相關的人和這個人做的操作,將這些操作和代碼統一管理起來,全流程可視化,每一個人都可以詳細看到每一個的進程,可以大大提升開發者對於系統和數據的信任度。

分享和複用一直是數據協作的理念,以前大家使用數據的方式都提走一份數據,在自己的電腦上做分析之後併產生報告就結束而。中間的分析過程、計算過程和報告的洞察 insight 並沒有積累下來。因此更希望整個的計算過程和所有的計算結果是可以被寫回到後面的中臺和圖譜裏面去,所以這些洞察 insight 和過程都會保留下來,可以被其他的人分享、複用,這也是數據協作的理念。

用知識圖譜豐富數據中臺

最後,明略科技技術中心負責人楊威強調,企業做數據中臺,是想要將來自於多條業務線且複雜的數據整合起來並進行高效、有價值的分析。知識圖譜之於中臺,不只是簡單的將數據組織成一張數據網絡然後再提供數據服務,而是所做的是融合了從智慧到知識的過程,包括規則、算法、推理等程序性支持,有了這些支撐,才能豐富數據中臺相關的數據服務能力。

此外,企業打造了數據中臺,也一定要有業務中臺,否則數據中臺就是個“空架子”,沒有可以服務的對象。從數據中臺到業務中臺,無論是架構、技術接口還是邏輯,都應該是無縫鏈接,有了知識圖譜,才能夠實現對上層業務更加強有力的支撐。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章