如何系統學習知識圖譜-胖子哥的實踐經驗分享

一、前言
這是之前一次線上活動的待分享內容，因爲一些原因，沒有成行。在此開放出來，算是對之前關心和關注朋友的一次補償。這部分內容同時也是系列課程《知識圖譜實戰開發案例剖析》的學習導論。相關課程已經開放在網易雲課堂，關注的朋友可以前往查看。
1.1 概述
任何一項新技術的學習，都需要學習者基於自身的情況，結合被學習內容的特點進行展開，其過程既具有特殊性，同時也具有一般性，知識圖譜的學習同樣如此。基於胖子哥自身的切身實踐，總結出了一套系統的學習知識圖譜的方法，在此分享給大家。其要點可以用簡單的用兩句話來概況：
1. 橫向覆蓋：瞭解知識圖譜所涉及的內容有哪些，並具備初步的認知能力，實現這一步，就可以對知識圖譜的全局有一個系統的把握。
2. 縱向深耕：基於特定技術點進行深度學習，重點攻關、學深、學透。
以上兩個點其實也是學習的兩個過程，可以交叉進行，反覆迭代。
1.2 人工智能的系統架構
知識圖譜是人工智能進步的階梯，開始知識圖譜的學習之前，我們需要先了解一下人工智能相關的知識。人工智能從業務視角可以分爲感知能力、認知能力和服務能力三個層次，其中認知能力以語義理解和語言生成爲核心。如下圖所示：

圖：人工智能的業務架構
人工智能技術視角，可以分爲基礎設施層、技術層和應用層。其中知識圖譜位於基礎設施層，與數據資源平齊。具體技術架構如下圖所示：

圖：人工智能的技術架構
1.3 智能對話與知識圖譜
智能對話是人工智能時代最具代表性產品形態，而其中知識圖譜起到了決定性的作用，具體體現在語義理解和語言生成兩個方面。智能對話系統的抽象模型如下圖所示：

圖：智能對話業務模型
二、學習方法論
2.1 PDCA模型：通用問題處理方法
2.1.1 概述

圖：通用問題處理方法
2.1.2模型歷史
PDCA循環是美國質量管理專家休哈特博士首先提出的，由戴明採納、宣傳，獲得普及，所以又稱戴明環。全面質量管理的思想基礎和方法依據就是PDCA循環。PDCA循環的含義是將質量管理分爲四個階段，即計劃（plan）、執行（do）、檢查（check）、調整（Action）。在質量管理活動中，要求把各項工作按照作出計劃、計劃實施、檢查實施效果，然後將成功的納入標準，不成功的留待下一循環去解決。這一工作方法，這是質量管理的基本方法，也是企業管理各項工作的一般規律。
2.1.3模型說明
PDCA模型包括四大過程，八大步驟。四大過程如上圖所示：
Plan（P：計劃）：方針和目標的確定，已經活動計劃的制定；
Do（D：執行）：具體運作，實現計劃中的步驟，它只有一個步驟：執行計劃；
Check（C：檢查）：要總結執行計劃的結果，分清哪些對了，哪些錯了，明確效果，找出問題；
Action（A：調整或改善）：肯定成功經驗，實現標準化，總結失敗教訓，以免重現。把沒有解決的問題提給下一個PDCA循環；
PDCA八大步驟如下圖所示：

圖：PDCA八大步驟

第一爲P（計劃）階段，其中分爲四個步驟：

　　a.分析現狀，找出存在的質量問題；
　　b.分析產生質量問題的各種原因；
　　c.找出影響質量的主要原因；
　　e.針對影響質量的主要原因制訂措施，提出改進計劃，定出目標。
　　第二爲D（實施）階段：按照制訂計劃目標加以執行。
　　第三爲C（檢查）階段：檢查實際執行結果看是否達到計劃的預期效果。
　　第四爲A（總結處理）階段，其中分二步：
　　a.總結成熟的經驗，納入標準制度和規定，以鞏固成績，防止失誤；
　　b.把本輪PDCA循環尚未解決的問題，納入下一輪PDCA循環中去解決。
2.1.4模型特點：
特點1：環環相扣，生生不息。大環套小環，小環保大環，互相促進，推動大循環。

圖：PDCA特點1
特點2：步步高昇，循環不止。PDCA循環是爬樓梯上升式的循環，每轉動一週，質量就提高一步。

圖：PDCA特點2
特點3：相對獨立，相互依存。PDCA循環是綜合性循環，4個階段是相對的，它們之間不是截然分開的。
2.2 學習框架：知識圖譜學習方法論
基於對通用PDCA模型的理解和認知，結合知識圖譜的學習過程，個人總結出來一個完整的知識圖譜的系統的學習方法。該方法包括兩大學習目標和八大學習步驟,如下圖所示：

圖：系統學習方法論
兩大目標：
目標一、橫向拓展：全面系統的瞭解知識圖譜相關的內容，包括知識圖譜的概念定義、發展歷史、關鍵技術、產品形態、工作機制、發展瓶頸等等。
目標二、縱向深耕：針對知識圖譜特定的技術專題，比如知識建模、知識存儲、知識應用、知識獲取等特定的技術專題，展開深入的，特定方向的專題攻關，學深，學透，並達到熟練掌握的程度。
八大步驟：
(1)發現問題：分析現狀，包括自身現狀（菜鳥、其他領域的專家）和領域現狀（基礎理論、產品形態、關鍵技術、企業戰略和發展瓶頸等），以及自身對領域知識能力掌握的現狀，發現待提升點（依賴於知識全局的橫向覆蓋）。
(2)分析原因：分析影響自身知識圖譜能力提升的原因有哪些。
(3)識別主因：識別若干原因中的最關鍵因素。
(4)制定策略：基於以上分析，制定自己的學習策略和計劃。
(5)計劃實施：實施學習計劃，計劃的執行以特定場景驅動、從單個知識點切入，逐步拓展。
(6)檢查：不通和不痛；
(7)總結：知識沉澱和方向調整，啓動新的一輪迭代。
三、學習過程回顧
3.1 基礎理論
知識圖譜本質（Knowledge Graph）上是一種叫做語義網絡（semantic network）的知識庫，即具有有向圖結構的一個知識庫；圖的結點代表實體（entity）或者概念（concept），而圖的邊代表實體/概念之間的各種語義關係，比如說兩個實體之間的相似關係；知識圖譜（Knowledge Graph）的概念由谷歌 2012 年正式提出，旨在實現更智能的搜索引擎，並且於 2013 年以後開始在學術界和業界普及，並在智能問答、情報分析、反欺詐等應用中發揮重要作用。
3.2 知識表示
知識表示（knowledge representation）是指把知識客體中的知識因子與知識關聯起來，便於人們識別和理解知識。知識表示是知識組織的前提和基礎，任何知識組織方法都是要建立在知識表示的基礎上。知識表示包括知識因子的表示和知識的組織體系兩部分內容。常用的知識因子的表示方法如下圖所示：

圖：知識因子的表示方法
常用的知識表示體系如下圖所示：

圖：知識單元的組織體系
知識表示是知識圖譜中最重要的活動，也稱之爲知識建模。知識建模的方法如下圖所示：

圖：知識建模方法論
知識建模的方法論，包括知識建模的方法和知識建模的原則兩部分內容。圍繞業務規劃產品是指脫離具體的業務需求場景，站在整個業務領域的視角，看問題。具體做法是分析完整的業務流程、識別全部的動態活動和靜態對象，設計全領域相關的知識體系。基於團隊選擇方法的原則是：具備行業領域專家（標準+業務+技術）的情況下，選擇專家法；具有同/異行業標準，而沒有行業領域專家的情況下，選擇參照法；既無行業標準，又無領域專家的情況下，選擇歸納法；萬法歸宗，一種方法執行一段時間以後，可以選擇換另外一種方法，二者尋找一個平衡點。
目前而言，知識圖譜領域我們更能夠看到和接觸到的內容中，做的比較好的是醫療領域的UMLS（統一醫學建模語言），可以作爲我們構建知識圖譜的時候，一個比較好的參考。統一醫學語言系統( Unified Medical Language System，UMLS) 是美國國立醫學圖書館( National Library of Medicine，NLM) 於1986 年開始建設的一體化醫學知識語言，具有集成性、跨領域和工具化的特點。UMLS 在信息檢索( Information Retrieval) 、自然語言處理( Natural Language Processing) 、電子病歷( Electronic Patient Records) 、健康數據標準( Health Data Standards) 等方面得到了廣泛的研究和應用。NLM 應用UMLS 的系統和項目主要有PubMed，提供對Medline 和其他相關數據庫的免費檢索; NLM Gateway，提供對NLM 多個系統的集成檢索，包括Medline、OLD Medline、LocatorPlus、PubMed、AIDS Meetings、HSRProj 和MedlinePlus 等。
UMLS中對於語義類型、語義關係、本體對象的定義和表示，可以作爲我們非常好的參考，對於醫學領域是一個很好的行業標準，對於其他領域，是一個很好的跨域參考標準。
UMLS語義類型如下圖所示：

圖：UMLS語義類型
UMLS語義關係如下圖所示：

圖：UMLS語義關係
3.3 知識存儲
知識存儲是指知識內容的物理存儲，知識建模解決了知識邏輯上的表示，知識存儲則着手解決知識的物理表示。常用的知識存儲方式包括：

圖：知識存儲的常用方法
關於知識圖譜的存儲，首先明確一個原則，沒有圖數據庫之前，知識型的內容，同樣有處理辦法，因此圖數據庫只是知識圖譜存儲的方式之一。任何一種問題，都有不止一個解決方案，只是方案之間有着不同的優勢而已。知識圖譜的存儲方式，在不同時期，不同場景下有不同的技術方案，有着明顯的時間特徵和場景特徵。常用的知識圖譜的方式包括：關係型數據（RDBMS）、三元組（RDF）和圖數據庫（Graph DB）。目前在圖數據庫領域排名比較靠前的如下圖所示：

圖：圖數據庫排行
其發展趨勢如下圖所示：

圖：圖數據庫發展趨勢圖
圖數據庫之間各有優劣，Neo4j可視操作，文檔支持，企業服務支持做的比較好，是無絕對開發能力團隊的首選，同時因爲社區版本的免費，特別適合新手學習。Titan是基於分佈式存儲模式提交下的開源系統，適合存儲體量比較大需求場景，但是已經很久沒有更新，適合技術團隊能力比較強的組織採用。
3.4 知識應用
知識圖譜的典型應用有很多種場景，常見的包括以下幾種：

圖：知識圖譜的典型應用
關於知識圖譜應用的行業最佳實踐是Google在搜索引擎上的應用，根據Google對外公開的資料顯示，知識圖譜在Google的應用主要包括兩種場景：

圖：智能搜索
通過知識圖譜的建設，智能搜索能夠讓用戶獲取更精準的信息、更有廣度的信息和更有深度的信息。

而智能問答系統則是代表未來的一種服務模式，基於溝通工具的變化，語音模式下，人機交互方式必然轉變爲精準信息的交互，傳統模式的搜索引擎模式必然遭到淘汰。人機交互的核心則在於語義理解，語義理解關鍵則取決於知識圖譜，否則無從談起，聽清、聽懂。
3.5 知識獲取
知識圖譜的建設，理想主義者比較多，而現實情況則不容樂觀，動輒談機器學習，網絡爬蟲的基本上門外漢的思路。從時間經驗來看，知識體系的建設，包括衆包法（靠網民衆包完成），目前各種百科類的平臺基本如此；專家法（行業領域專家完成），目前垂類領域的知識體系建設，以此爲主；機器學習法（網絡爬蟲），多以爬取別人系統和百科類站點爲主，多以個人愛好者，小團隊爲主，自身無資源，異想天開型，但佔主流。
四、學習經驗總結
4.1 全面認知
學習任何知識，首先需要對其整體有一個全面的認知，然後纔是其他，否則只見一木，未見森林。
4.2 單點突破
從某一個特定的技術點開始，縱向貫通，做深，做透，比如知識建模。而後橫向拓展，因點成線，因線成面，因面而成體。
4.3 案例驅動
學習的過程，尤其是技術類的內容，特別枯燥，比較好的一個避免疲勞的方法則是，通過具體需求，場景和案例的引入，有助於知識理解和貫通。
4.4 能力遷移
術、法、道，是能力層次的三個境界。術的提升，無它法，唯勤爾；法則可以遷移，比如我們可以用設計數據主題域模型的方式，來設計語義類型，所需要做的只是能力的一種遷移而已。

如何系統學習知識圖譜-胖子哥的實踐經驗分享

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

圖說Python菜鳥版：第17章 xml文件解析

一文看懂Python面向對象編程1:類的聲明

數據產品經理類型劃分和工作彙報框架

Apache Atlas元數據管理從入門到實戰（1）

辯證法的三大規律、五大範疇、三個基本觀點

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結