如何系統學習知識圖譜-胖子哥的實踐經驗分享

一、 前言
這是之前一次線上活動的待分享內容,因爲一些原因,沒有成行。在此開放出來,算是對之前關心和關注朋友的一次補償。這部分內容同時也是系列課程《知識圖譜實戰開發案例剖析》的學習導論。相關課程已經開放在網易雲課堂,關注的朋友可以前往查看。
1.1 概述
任何一項新技術的學習,都需要學習者基於自身的情況,結合被學習內容的特點進行展開,其過程既具有特殊性,同時也具有一般性,知識圖譜的學習同樣如此。基於胖子哥自身的切身實踐,總結出了一套系統的學習知識圖譜的方法,在此分享給大家。其要點可以用簡單的用兩句話來概況:
1. 橫向覆蓋:瞭解知識圖譜所涉及的內容有哪些,並具備初步的認知能力,實現這一步,就可以對知識圖譜的全局有一個系統的把握。
2. 縱向深耕:基於特定技術點進行深度學習,重點攻關、學深、學透。
以上兩個點其實也是學習的兩個過程,可以交叉進行,反覆迭代。
1.2 人工智能的系統架構
知識圖譜是人工智能進步的階梯,開始知識圖譜的學習之前,我們需要先了解一下人工智能相關的知識。人工智能從業務視角可以分爲感知能力、認知能力和服務能力三個層次,其中認知能力以語義理解和語言生成爲核心。如下圖所示:
這裏寫圖片描述
圖:人工智能的業務架構
人工智能技術視角,可以分爲基礎設施層、技術層和應用層。其中知識圖譜位於基礎設施層,與數據資源平齊。具體技術架構如下圖所示:
這裏寫圖片描述
圖:人工智能的技術架構
1.3 智能對話與知識圖譜
智能對話是人工智能時代最具代表性產品形態,而其中知識圖譜起到了決定性的作用,具體體現在語義理解和語言生成兩個方面。智能對話系統的抽象模型如下圖所示:
這裏寫圖片描述
圖:智能對話業務模型
二、 學習方法論
2.1 PDCA模型:通用問題處理方法
2.1.1 概述
這裏寫圖片描述
圖:通用問題處理方法
2.1.2模型歷史
PDCA循環是美國質量管理專家休哈特博士首先提出的,由戴明採納、宣傳,獲得普及,所以又稱戴明環。全面質量管理的思想基礎和方法依據就是PDCA循環。PDCA循環的含義是將質量管理分爲四個階段,即計劃(plan)、執行(do)、檢查(check)、調整(Action)。在質量管理活動中,要求把各項工作按照作出計劃、計劃實施、檢查實施效果,然後將成功的納入標準,不成功的留待下一循環去解決。這一工作方法,這是質量管理的基本方法,也是企業管理各項工作的一般規律。
2.1.3模型說明
PDCA模型包括四大過程,八大步驟。四大過程如上圖所示:
Plan(P:計劃):方針和目標的確定,已經活動計劃的制定;
Do(D:執行):具體運作,實現計劃中的步驟,它只有一個步驟:執行計劃;
Check(C:檢查):要總結執行計劃的結果,分清哪些對了,哪些錯了,明確效果,找出問題;
Action(A:調整或改善):肯定成功經驗,實現標準化,總結失敗教訓,以免重現。把沒有解決的問題提給下一個PDCA循環;
PDCA八大步驟如下圖所示:
這裏寫圖片描述
圖:PDCA八大步驟

第一爲P(計劃)階段,其中分爲四個步驟:

  a.分析現狀,找出存在的質量問題;
  b.分析產生質量問題的各種原因;
  c.找出影響質量的主要原因;
  e.針對影響質量的主要原因制訂措施,提出改進計劃,定出目標。
  第二爲D(實施)階段:按照制訂計劃目標加以執行。
  第三爲C(檢查)階段:檢查實際執行結果看是否達到計劃的預期效果。
  第四爲A(總結處理)階段,其中分二步:
  a.總結成熟的經驗,納入標準制度和規定,以鞏固成績,防止失誤;
  b.把本輪PDCA循環尚未解決的問題,納入下一輪PDCA循環中去解決。
2.1.4模型特點:
特點1:環環相扣,生生不息。大環套小環,小環保大環,互相促進,推動大循環。
這裏寫圖片描述
圖:PDCA特點1
特點2:步步高昇,循環不止。PDCA循環是爬樓梯上升式的循環,每轉動一週,質量就提高一步。
這裏寫圖片描述
圖:PDCA特點2
特點3:相對獨立,相互依存。PDCA循環是綜合性循環,4個階段是相對的,它們之間不是截然分開的。
2.2 學習框架:知識圖譜學習方法論
基於對通用PDCA模型的理解和認知,結合知識圖譜的學習過程,個人總結出來一個完整的知識圖譜的系統的學習方法。該方法包括兩大學習目標和八大學習步驟,如下圖所示:
這裏寫圖片描述
圖:系統學習方法論
兩大目標:
目標一、橫向拓展:全面系統的瞭解知識圖譜相關的內容,包括知識圖譜的概念定義、發展歷史、關鍵技術、產品形態、工作機制、發展瓶頸等等。
目標二、縱向深耕:針對知識圖譜特定的技術專題,比如知識建模、知識存儲、知識應用、知識獲取等特定的技術專題,展開深入的,特定方向的專題攻關,學深,學透,並達到熟練掌握的程度。
八大步驟:
(1)發現問題:分析現狀,包括自身現狀(菜鳥、其他領域的專家)和領域現狀(基礎理論、產品形態、關鍵技術、企業戰略和發展瓶頸等),以及自身對領域知識能力掌握的現狀,發現待提升點(依賴於知識全局的橫向覆蓋)。
(2)分析原因:分析影響自身知識圖譜能力提升的原因有哪些。
(3)識別主因:識別若干原因中的最關鍵因素。
(4)制定策略:基於以上分析,制定自己的學習策略和計劃。
(5)計劃實施:實施學習計劃,計劃的執行以特定場景驅動、從單個知識點切入,逐步拓展。
(6)檢查:不通和不痛;
(7)總結:知識沉澱和方向調整,啓動新的一輪迭代。
三、 學習過程回顧
3.1 基礎理論
知識圖譜本質(Knowledge Graph)上是一種叫做語義網絡(semantic network)的知識庫,即具有有向圖結構的一個知識庫;圖的結點代表實體(entity)或者概念(concept),而圖的邊代表實體/概念之間的各種語義關係,比如說兩個實體之間的相似關係;知識圖譜(Knowledge Graph)的概念由谷歌 2012 年正式提出,旨在實現更智能的搜索引擎,並且於 2013 年以後開始在學術界和業界普及,並在智能問答、情報分析、反欺詐等應用中發揮重要作用。
3.2 知識表示
知識表示(knowledge representation)是指把知識客體中的知識因子與知識關聯起來,便於人們識別和理解知識。知識表示是知識組織的前提和基礎,任何知識組織方法都是要建立在知識表示的基礎上。知識表示包括知識因子的表示和知識的組織體系兩部分內容。常用的知識因子的表示方法如下圖所示:
這裏寫圖片描述
圖:知識因子的表示方法
常用的知識表示體系如下圖所示:
這裏寫圖片描述
圖:知識單元的組織體系
知識表示是知識圖譜中最重要的活動,也稱之爲知識建模。知識建模的方法如下圖所示:
這裏寫圖片描述
圖:知識建模方法論
知識建模的方法論,包括知識建模的方法和知識建模的原則兩部分內容。圍繞業務規劃產品是指脫離具體的業務需求場景,站在整個業務領域的視角,看問題。具體做法是分析完整的業務流程、識別全部的動態活動和靜態對象,設計全領域相關的知識體系。基於團隊選擇方法的原則是:具備行業領域專家(標準+業務+技術)的情況下,選擇專家法;具有同/異行業標準,而沒有行業領域專家的情況下,選擇參照法;既無行業標準,又無領域專家的情況下,選擇歸納法;萬法歸宗,一種方法執行一段時間以後,可以選擇換另外一種方法,二者尋找一個平衡點。
目前而言,知識圖譜領域我們更能夠看到和接觸到的內容中,做的比較好的是醫療領域的UMLS(統一醫學建模語言),可以作爲我們構建知識圖譜的時候,一個比較好的參考。統一醫學語言系統( Unified Medical Language System,UMLS) 是美國國立醫學圖書館( National Library of Medicine,NLM) 於1986 年開始建設的一體化醫學知識語言,具有集成性、跨領域和工具化的特點。UMLS 在信息檢索( Information Retrieval) 、自然語言處理( Natural Language Processing) 、電子病歷( Electronic Patient Records) 、健康數據標準( Health Data Standards) 等方面得到了廣泛的研究和應用。NLM 應用UMLS 的系統和項目主要有PubMed,提供對Medline 和其他相關數據庫的免費檢索; NLM Gateway,提供對NLM 多個系統的集成檢索,包括Medline、OLD Medline、LocatorPlus、PubMed、AIDS Meetings、HSRProj 和MedlinePlus 等。
UMLS中對於語義類型、語義關係、本體對象的定義和表示,可以作爲我們非常好的參考,對於醫學領域是一個很好的行業標準,對於其他領域,是一個很好的跨域參考標準。
UMLS語義類型如下圖所示:
這裏寫圖片描述
圖:UMLS語義類型
UMLS語義關係如下圖所示:
這裏寫圖片描述
圖:UMLS語義關係
3.3 知識存儲
知識存儲是指知識內容的物理存儲,知識建模解決了知識邏輯上的表示,知識存儲則着手解決知識的物理表示。常用的知識存儲方式包括:
這裏寫圖片描述
圖:知識存儲的常用方法
關於知識圖譜的存儲,首先明確一個原則,沒有圖數據庫之前,知識型的內容,同樣有處理辦法,因此圖數據庫只是知識圖譜存儲的方式之一。任何一種問題,都有不止一個解決方案,只是方案之間有着不同的優勢而已。知識圖譜的存儲方式,在不同時期,不同場景下有不同的技術方案,有着明顯的時間特徵和場景特徵。常用的知識圖譜的方式包括:關係型數據(RDBMS)、三元組(RDF)和圖數據庫(Graph DB)。目前在圖數據庫領域排名比較靠前的如下圖所示:
這裏寫圖片描述
圖:圖數據庫排行
其發展趨勢如下圖所示:
這裏寫圖片描述
圖:圖數據庫發展趨勢圖
圖數據庫之間各有優劣,Neo4j可視操作,文檔支持,企業服務支持做的比較好,是無絕對開發能力團隊的首選,同時因爲社區版本的免費,特別適合新手學習。Titan是基於分佈式存儲模式提交下的開源系統,適合存儲體量比較大需求場景,但是已經很久沒有更新,適合技術團隊能力比較強的組織採用。
3.4 知識應用
知識圖譜的典型應用有很多種場景,常見的包括以下幾種:
這裏寫圖片描述
圖:知識圖譜的典型應用
關於知識圖譜應用的行業最佳實踐是Google在搜索引擎上的應用,根據Google對外公開的資料顯示,知識圖譜在Google的應用主要包括兩種場景:
這裏寫圖片描述
圖:智能搜索
通過知識圖譜的建設,智能搜索能夠讓用戶獲取更精準的信息、更有廣度的信息和更有深度的信息。

而智能問答系統則是代表未來的一種服務模式,基於溝通工具的變化,語音模式下,人機交互方式必然轉變爲精準信息的交互,傳統模式的搜索引擎模式必然遭到淘汰。人機交互的核心則在於語義理解,語義理解關鍵則取決於知識圖譜,否則無從談起,聽清、聽懂。
3.5 知識獲取
知識圖譜的建設,理想主義者比較多,而現實情況則不容樂觀,動輒談機器學習,網絡爬蟲的基本上門外漢的思路。從時間經驗來看,知識體系的建設,包括衆包法(靠網民衆包完成),目前各種百科類的平臺基本如此;專家法(行業領域專家完成),目前垂類領域的知識體系建設,以此爲主;機器學習法(網絡爬蟲),多以爬取別人系統和百科類站點爲主,多以個人愛好者,小團隊爲主,自身無資源,異想天開型,但佔主流。
四、 學習經驗總結
4.1 全面認知
學習任何知識,首先需要對其整體有一個全面的認知,然後纔是其他,否則只見一木,未見森林。
4.2 單點突破
從某一個特定的技術點開始,縱向貫通,做深,做透,比如知識建模。而後橫向拓展,因點成線,因線成面,因面而成體。
4.3 案例驅動
學習的過程,尤其是技術類的內容,特別枯燥,比較好的一個避免疲勞的方法則是,通過具體需求,場景和案例的引入,有助於知識理解和貫通。
4.4 能力遷移
術、法、道,是能力層次的三個境界。術的提升,無它法,唯勤爾;法則可以遷移,比如我們可以用設計數據主題域模型的方式,來設計語義類型,所需要做的只是能力的一種遷移而已。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章