從知識工程到知識圖譜全面回顧



來源|集智俱樂部(ID:swarma_org)


640?wx_fmt=png

文本挖掘和圖形數據庫 | ©ontotext


知識工程是符號主義人工智能的典型代表,近年來越來越火的知識圖譜,就是新一代的知識工程技術。知識工程將如何影響未來人工智能領域的發展,甚至讓計算機擁有像人類一樣的認知能力?

復旦大學教授、知識工場創始人肖仰華,受邀在騰訊研究院×集智俱樂部 AI&Society 沙龍上發表以“知識圖譜與認知智能”爲題的演講,筆者受肖仰華教授講座啓發,梳理了知識工程與知識圖譜的發展歷程。


智能是什麼?半個多世紀以來,無數科學家鑽研,各個派別涌現,然而衆人的眼光似乎總是聚焦在當下“勝利”的那一方。過去幾年,以深度學習爲代表的連接主義取得了豐碩的成果,如今提到人工智能,都默認是基於深度學習和機器學習方法,而其它研究方向似乎被衆人遺忘。


隨着大數據紅利消耗殆盡,深度學習模型效果的天花板日益迫近,人們四處尋找新的突破口,“得知識者得天下”的聲勢漸長。以知識圖譜爲代表的符號主義被打上追光,這個蘊含大量先驗知識的寶庫尚未被有效挖掘。


符號主義和連接主義此消彼長幾十年,未來是否會繼續重複這種對立,亦或者是找到兩者有機的結合,走向合作發展的道路?


知識工程是符號主義人工智能的典型代表,近年來越來越火的知識圖譜,就是新一代的知識工程技術。知識工程將如何影響未來人工智能領域的發展,甚至讓計算機擁有像人類一樣的認知能力?本文將從歷史出發,系統梳理知識工程近 40 年的發展歷程,結合互聯網大數據時代的技術和社會背景,展望知識工程和知識圖譜的未來前景。


01智能化的突破口:知識工程


一般認爲,人工智能分爲計算智能、感知智能和認知智能三個層次。簡要來講,計算智能即快速計算、記憶和儲存能力;感知智能,即視覺、聽覺、觸覺等感知能力,當下十分熱門的語音識別、語音合成、圖像識別即是感知智能;認知智能則爲理解、解釋的能力。


640?wx_fmt=png

目前的智能研究旨在通過計算機模擬,讓機器獲得和人類相似的智慧,解決智能時代下的精準分析、智慧搜索、自然人機交互、深層關係推理等實際問題。 | © thoughtworks


落眼當下,以快速計算、存儲爲目標的計算智能已經基本實現。近幾年,在深度學習推動下,以視覺、聽覺等識別技術爲目標的感知智能也取得不錯的勝利果實。然而,相比於前兩者,認知能力的實現難度較大。舉個例子,小貓可以“識別”主人,它所用到的感知能力,一般動物都具備,而認知智能則是人獨有的能力。人工智能的研究目標之一,就是希望機器將具備認知智能,能夠像人一樣“思考”。


這種像人一樣的思考能力具體體現在:機器對數據和語言的理解、推理、解釋、歸納、演繹的能力,體現在一切人類所獨有的認知能力上。學界業界都希望通過計算機模擬,讓機器獲得和人類相似的智慧,解決智能時代下的精準分析、智慧搜索、自然人機交互、深層關係推理等實際問題。


知道了認知智能是機器智能化的關鍵,進一步我們要思考,如何實現認知智能——如何讓機器擁有理解和解釋的認知能力。


過去幾年,由於大數據紅利的消失,深度學習面臨巨大的瓶頸,需要尋找新的突破口。以深度學習爲代表的統計學習方法,嚴重依賴樣本,只能習得數據中的信息。部分研究者已經關注到,另一個非常重要的突破方向在於——知識,特別是符號化的知識。


肖仰華教授認爲,知識圖譜和以知識圖譜爲代表的知識工程系列技術是認知智能的核心。知識工程主要包括:知識獲取、知識表示和知識應用。我們可以嘗試突破的方向在於知識的利用,在於對符號知識和數值模型結合的應用。而這些努力,最終結果就是使機器具備理解和解釋的能力。


640?wx_fmt=png

肖仰華教授正在 AI&Society 第十五期沙龍上發表知識圖譜主題演講


01知識工程前世今生


01知識工程起源


  • 20世紀50年代—70年代初

    知識工程誕生之前的早期人工智能


那麼知識圖譜到底將如何助力人工智能?回顧歷史總能幫助我們更好的理解未來。把時間的車輪迴滾到 1956 年 8 月,在美國漢諾斯小鎮寧靜的達特茅斯學院中,幾位心理學家、數學家、計算機科學家、信息論學家聚在一起,舉辦了一次長達 2 個月的研討會,認真而熱烈地討論了用機器模擬人類智能的問題。他們爲會議的內容起了一個響亮的名字:人工智能(artificial intelligence)。


人工智能學科自此誕生。


640?wx_fmt=png

傳統知識工程代表性人物與成就


達特茅斯會議之後,參會者們相繼取得了一批令人矚目的研究成果。具有代表性的成果爲:A.Newell、J.Shaw 和 H.Simon 等人編制出邏輯機 LT,它證明了 38 條數學定理;1960 年又定義了 GPS 的邏輯推理架構,並且提出啓發式搜索的思路;1956 年, Samuel 研製了一個跳棋程序,該程序具有自學習功能,可以從比賽中不斷總結經驗提高棋藝。還有很多令人激動的成就,這掀起人工智能發展的第一個高潮。


640?wx_fmt=png


其中,以 Newell 和 Simon 爲代表人物的符號主義學派,最先取得豐碩成果,最著名的代表爲邏輯機 LT。


符號主義最核心的思想是什麼呢?符號主義認爲人工智能源於數理邏輯,認爲智能的本質就是符號的操作和運算。符號主義在後來幾大門派的較量中,曾長期一支獨秀,爲人工智能的發展作出重要貢獻。當然,也爲後來紅火一時的知識工程奠定了基業。


再把時間的焦點挪到 20 世紀 60 年代— 70 年代初,學界還在爲人工智能發展初期取得的勝利高興不已的時候,不切實際的研發目標帶來接二連三的項目失敗、期望落空。過高的期望總是帶來更具破壞性的失望,終於,人工智能迎來第一次寒冷的冬天。


  • 1977

    知識工程誕生


在人工智能領域經歷挫折之後,研究者們不得不冷靜下來,重新審視、思考未來的道路。這時候,西蒙的學生,愛德華·費根鮑姆(Edward A. Feigenbaum)站了出來。他分析傳統的人工智能忽略了具體的知識,人工智能必須引進知識。


640?wx_fmt=png

愛德華·費根鮑姆(Edward Feigenbaum,1936-),美國計算機科學家,專家系統之父,知識工程奠基人,曾獲得 1994 年圖靈獎。他有一句名言流傳甚廣:“Knowledge is the power in AI”。


在費根鮑姆的帶領下,專家系統誕生了。專家系統作爲早期人工智能的重要分支,是一種在特定領域內具有專家水平解決問題能力的程序系統。


專家系統一般由兩部分組成:知識庫與推理引擎。它根據一個或者多個專家提供的知識和經驗,通過模擬專家的思維過程,進行主動推理和判斷,解決問題。第一個成功的專家系統 DENDRAL 於 1968 年問世。1977 年,費根鮑姆將其正式命名爲知識工程。


把知識融合在機器中,讓機器能夠利用我們人類知識、專家知識解決問題,這就是知識工程要做的事。


02知識工程的興起與發展


  • 20世紀70年代—90年代

    知識工程蓬勃發展


1977 年知識工程誕生之後,這個領域還在不斷往前發展,不斷產生新的邏輯語言和方法。這其中有一節點比較重要。


640?wx_fmt=png


上節已經提到專家系統的是如何形成的,而專家系統究竟發展的如何呢?知識工程又是否能產業落地?美國 DEC 公司的專家配置系統  XCON 給出了初步的答案,當客戶訂購  DEC 公司的 VAX 系列計算機時,專家配置系統 XCON 可以按照需求自動配置零部件。在投入使用的6年間,共處理八萬個訂單,節省了資金。


至此,人工智能逐步開始了商業應用。


比較著名的專家系統還有 Cyc,由 Douglas Lenat 在1984年設立,旨在收集生活中常識知識的本體知識庫。Cyc 不僅包含知識,還提供很多的推理引擎,共涉及 50 萬條概念和 500 萬條知識。除此之外,還有普林斯頓大學心理學教授維護的 WordNet 的英語字典。類似的,漢語中的《同義詞詞林》及其擴展版、知網(HowNet)等詞典。不幸的是,隨着日本五代機的幻滅,專家系統在經歷了十年的黃金期後,終因無法克服人工構建成本太高,知識獲取困難等弊端,逐漸沒落。


  • 1998

    萬維網與連接數據


萬維網的出現,爲知識的獲取提供了極大的方便。1998 年,萬維網之父蒂姆·伯納斯·李再次提出語義網。它的核心是:語義網可以直接向機器提供能用於程序處理的知識。通過將萬維網上的文檔轉化爲計算機所能理解的語義,使互聯網成爲信息交換媒介。但是,語義網是一個比較宏觀的設想,需要“自頂向下”的設計,很難落地。


640?wx_fmt=png

語義分析與知識網絡


由於自頂向下的設計落地困難,學者們將目光轉移到數據本身上來,提出了連接數據的概念。連接數據希望數據不僅僅發佈於語義網中,更需要建立起自身數據之間的鏈接從而形成一張巨大的鏈接數據網。其中, DBpedia 項目是目前已知的第一個大規模開放域鏈接數據。類似的還有 Wikipedia、Yago 等都屬於這一類結構化知識的知識庫。


  • 2012-知識圖譜

    知識工程新發展時期


與維基百科的同時存在的還有個 Freebase。維基百科的受衆是人,而 Freebase 則強調機器可讀。Freebase 有 4000 萬個實體表示,在被收購後,谷歌給它起了個響亮的名字“知識圖譜”。


03爲何傳統知識工程困難重重?


在上世紀七八十年代,傳統的知識工程的確解決了很多的問題,但是這些問題都有一個很鮮明的特點,它們大部分都是在規則明確、邊界清晰、應用封閉的場景取得的成功。一旦涉及到開放的問題就基本不太可能實現,比如數學定理的證明,或是下棋。


傳統知識工程爲什麼會有這麼苛刻的條件呢?因爲傳統知識工程是一種典型的自上而下的做法,是一種嚴重依賴專家干預的做法。知識工程的基本目標,就是把專家的知識賦予機器,希望機器能夠利用專家知識來解決問題。傳統的知識工程裏,首先需要有領域專家,專家能夠把自己的知識表達出來;進一步,還需要有知識工程師把專家表達這個知識變成計算機能夠處理的形式。


640?wx_fmt=png


如此依賴專家去表達知識、獲取知識、運用知識,就會存在很多問題,一方面,這個機器背後的知識庫規模很有限,另外一方面,它的質量也會存在很多的疑問,這就是爲什麼我們說傳統的知識工程困難重重。


除了上面介紹的一些問題,傳統的知識工程面臨着的兩個主要困難:


  • 第一:知識獲取困難

    隱性知識、過程知識等難以表達。比如如何表達老中醫看病用了哪些知識;不同專家可能存在主觀性,例如,我國有明確治療規範的疾病佔比非常小,大部分依賴醫生的主觀性。

  • 第二:知識應用困難

    很多的應用,尤其是很多開放性的應用很容易超出預先設定的知識邊界;還有很多應用需要常識的支撐,而整個人工智能最怕的恰恰就是常識。爲什麼?因爲常識它難以定義、難以表達、難以表徵;知識更新困難,太依賴領域專家,還有很多異常或難以處理的情況。


04互聯網應用催生大數據時代知識工程


由於上節所述種種原因,知識工程到了上世紀八十年代之後就銷聲匿跡了。


雖然知識工程解決問題的思路極具前瞻性,但傳統知識表示的規模有限,難以適應互聯網時代大規模開放應用的需求。爲了應對這些問題,學界和業界的知識工程研究者們試圖尋找新的解決方案。


首先取得重大突破的,是谷歌。谷歌搜索是谷歌公司的核心產品服務,這類互聯網的應用,主要有以下特點:

  • 大規模開放性應用,永遠不知道用戶下一次搜索關鍵詞是什麼;

  • 精度要求不高;大部分搜索理解與回答只需要實現簡單的推理,複雜推理爲極少數。


在這樣的訴求下,谷歌推出了自己的知識圖譜,使用與語義檢索,從多種來收集信息,以提高搜索質量。而知識圖譜的推出,基本上宣告了知識工程進入了一個新的時代,我們稱之爲大數據時代的知識工程階段。谷歌利用一個全新名稱表達與傳統知識表示其毅然決裂的態度。


640?wx_fmt=jpeg

Google 知識圖譜截取


02知識圖譜引領知識工程復興


大數據時代下知識圖譜的出現,有其必然性,大數據時代給知識圖譜技術的發展奠定了豐富的土壤。或許你會問,知識圖譜和傳統的語義網絡有什麼本質不同麼?大數據時代能給我們帶來什麼特別的有利條件?前沿進展的回答是——


大數據技術使得大規模獲取知識成爲可能,而知識圖譜即爲一種大規模語義網絡。這樣的一個知識規模上的量變帶來了知識效用的質變。


我們有海量的數據、強大計算能力、羣智計算以及層出不窮的模型。在這些的外力的支持下,解決了傳統知識工程的一個瓶頸性問題——知識獲取。我們可以利用算法實現數據驅動的大規模自動化知識獲取。


640?wx_fmt=jpeg

以知識圖譜爲代表的符號主義聲勢漸長,這個蘊含大量先驗知識的寶箱正被大數據技術開啓。 | ©ontotext


和傳統知識獲取不同,以前是通過專家自上而下的獲取知識,而現在是利用數據自下而上,從數據裏面去挖掘知識、抽取知識。另外,衆包與羣智成爲大規模知識獲取的一條新路徑。高質量的 UGC 內容,爲自動挖掘知識提供了高質量數據源。


總的來說,知識工程在知識圖譜技術引領下進入了全新階段,叫做大數據時代知識工程階段。肖仰華教授提出了一個簡單的公式表明傳統知識工程與以知識圖譜爲代表的新一代知識工程的聯繫與區別:


Small knowledge + Big data=Big knowledge


大數據知識這個詞是 BigKE,它將會顯著提升機器認知智能水平,那麼,大數據知識工程對我們人工智能最根本的意義是什麼?是提升機器的認知智能水平。我們正在經歷感知智能到認知智能的過渡階段,未來最重要到技術即是實現認知智能。


大數據時代下,知識圖譜又有什麼獨特的魅力?爲什麼會受到如此廣泛的關注呢?


知識圖譜使機器語言認知成爲可能。機器想要認知語言、理解語言,需要背景知識的支持。而知識圖譜富含大量的實體及概念間的關係,可以作爲背景知識來支撐機器理解自然語言。


知識圖譜使可解釋人工智能成爲可能。在人工智能發展的任何階段,我們都需要事物的可解釋性,現在的深度學習也常因爲缺少可解釋性受人詬病。而知識圖譜中包含的概念、屬性、關係是天然可拿來做解釋的。 


640?wx_fmt=png

通過知識圖譜等先驗的知識去賦能機器學習,來降低機器學習對於樣本的依賴,增強機器學習的能力。


知識將顯著增強機器學習能力。傳統的機器學習都是通過大量的樣本習得知識,在大數據紅利漸漸消失的情況下,逐漸遇到發展瓶頸。而通過知識圖譜等先驗的知識去賦能機器學習,來降低機器學習對於樣本的依賴,增強機器學習的能力,或許是連接主義和符號主義在新時代下的共生髮展。


除了上述的種種優勢,知識圖譜在一系列實際應用上也非常有用,比如搜索、精準推薦、風險識別、深化行業數據的理解與洞察等,將在各種各樣的應用場景發揮作用。


信息技術革命持續進行,數據將會繼續向更大規模、更多連接的方向發展,在此背景下,知識圖譜將引領知識工程走上覆興的道路,推動在機器身上實現認知智能。


640?wx_fmt=gif數智優質活動推介640?wx_fmt=gif


由上海市經濟和信息化委員會、上海市商務委員會、上海市長寧區人民政府指導,上海市長寧區青年聯合會、億歐公司聯合主辦的“ 2019全球新經濟年會-產業互聯網峯會”將在上海長寧舉辦。


本次大會邀請了慧聰集團、甲骨文、盛景網聯、千方科技、找鋼網、金山雲等產業巨頭 ,明勢資本、遠望資本、阿爾法公社、賽意產業基金等產業互聯網一線投資人。產業互聯網從業與創業者將共同參會交流產業互聯網的未來,共話產業變革新機遇。


大會截止日期6月13日,感興趣的小夥伴可“掃描下方海報二維碼或點擊“閱讀原文進行活動報名和查看大會議程安排。


111.jpg

活動頁面鏈接:https://www.iyiou.com/a/cyhlw_shanghai_2019/

掃描海報二維碼 或 點擊閱讀原文

進行“活動報名”以及“查看大會議程安排


|| 推薦閱讀 ||


鏈接圖片2.png

https://mp.weixin.qq.com/s/wMF-5JDeV0kQH8iLtALmsA


鏈接圖片1.png

https://mp.weixin.qq.com/s/-oksB7YgLnerSHW3ZDnxuw



640?wx_fmt=png


640?wx_fmt=jpeg


星標我,每天多一點智慧

640?wx_fmt=gif



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章