領域本體的構建方法研究

領域本體的構建方法研究

(馬文虎,南京理工大學信息管理系)

 

目  錄

引言

1 本體的相關理論

1.1 本體的概述

1.1.1 本體的定義

1.1.2 本體的構成

1.1.3 本體的分類

1.1.4 本體的應用領域

1.2 本體的描述語言

1.3 本體的編輯工具

1.4 建立本體的難點

1.5 本體研究的現狀

2 領域本體的構建研究

2.1 領域本體構建遵循的原則

2.2 本體的構建工程思想

2.2.1 IDEF-5方法

2.2.2 Skeletal Methodolody骨架法(Uschold方法)

2.2.3 TOVE企業建模法

2.2.4 Methontology方法

2.2.5 循環獲取法

2.2.6 七步法

2.3 構建領域本體的步驟

2.3.1 確定領域本體的專業領域和範疇

2.3.2 考慮複用現有的本體

2.3.3 列出本體涉及領域中的重要術語

2.3.4 定義分類概念和概念分類層次

2.3.5 定義概念之間的關係

3 現有的領域本體構建方法及存在的問題

3.1 構建領域本體的知識工程方法

3.2 基於敘詞表的領域本體構建

3.3 基於頂層本體構建領域本體的構建方法

3.4 領域本體構建過程中存在的問題

3.4.1 手工構建

3.4.2 複用已有的本體

3.4.3 自動構建本體

結  論

參 考 文 獻

 

摘  要:

領域本體的構建方法是當前本體研究的熱點問題之一。但是,目前領域本體的創建還缺乏系統的、針對所有領域的、工程化的方法。本文介紹了本體的相關理論,並結合領域本體一般構建原則,分析了手工建立本體的六種常見本體構建工程思想,歸納總結出了構建領域本體的一般步驟。此外本文還重點分析了現有的領域本體構建方法以它們及存在的問題。

關鍵詞:

本體  領域本體  構建方法

引言

本體(Ontology)是近年來計算機及相關領域普遍關注的一個研究熱點,作爲一種能在語義和知識層次上描述信息系統的概念模型建模工具,已被廣泛應用於知識工程、系統建模、信息處理、數字圖書館、自然語言理解、語義Web等領域之中[1]。雖然20世紀90年代以來,研究人員從各自的專業角度出發對本體的理論和應用進行了深入研究,取得了豐富的研究成果,本體理論與技術也隨之日趨成熟,但是領域本體的建設問題仍然制約這些應用的發展。本文將詳細研究和分析目前領域本體構建的各種方法以及存在的問題,爲尋找新的構建方法提供參考。

本體的相關理論

本體又稱爲實體,源自於形而上學的哲學分支,它對客觀世界的事物進行分解,發現其基本的組成部分,進而研究客觀事物的抽象本質[10]

1.1 本體的概述

本體最早是一個源於哲學的概念,是一種對“存在”的系統化解釋,用於描述事務的本質。後來知識工程學者借用了這個概念,在開發知識系統時用於領域知識的獲取[8]

1.1.1 本體的定義

近年來,本體的概念被越來越多的應用於計算機知識工程領域,用於對客觀世界的存在進行系統化描述,方便知識的重用和交互。人們已經從不同的角度和方面爲本體論概念進行了定義。

雖然不同研究者對本體有不同的描述,但是從內涵上來看,他們都是把本體當作某個領域內不同主體(人、代理、機器等)之間進行交流的一種語義基礎,即由本體提供明確定義的詞彙表,描述概念和概念之間的關係,作爲使用者之間達成的共識[10]。因此,本體的用途包括交流、共享、互操作、重用等。

本體是用於描述一個領域的術語集合,其組織結構是層次結構化的,可以作爲一個知識庫的骨架和基礎。一般認爲本體就是Gruber提出的“本體是概念模型的明確的規範說明”。Fensel時這個定義進行分析後認爲本體的概念包括概念化、明確、形式化和共享四個主要方面。

總而言之,本體的目標是獲取、描述和表示相關領域的知識,提供對該領域知識的共同理解,確定領域內共同認可的詞彙,並從不同層次的形式化模式上給出了這些詞彙(術語)和詞彙間相互關係的明確定義[6]。從而能夠描述領域內部甚至更廣範圍內的一些概念和概念之間的聯繫,使得這些概念和聯繫在共享的範圍內有着明確唯一的解釋,這樣人、系統之間就可以進行交流[11]

一般來說,本體具有兩個特徵:靜態性和動態性—靜態性指的是它反映的概念模型,沒有涉及動態的行爲;動態性指的是它的內容和服務對象是不斷變化的,針對不同的領域,可以定義和構造不同的本體[6]

1.1.2 本體的構成

本體的體系結構應該包括3個要素:核心元素集、元素間的交互作用以及這些元素到規範語義間的映射關係。ISO 704標準和OKBC模型是現有的有關本體體系結構的規定。ISO 704認爲本體的體系結構應含概念、定義和術語3部分。ISO 704建議,一個概念應該用一個自然語言的術語得到理想的表達。

對於本體的具體構造過程,可以用以下公式(1-1)形象地表示:

本體 = 概念(Concept) + 屬性(Property) + 公理(Axiom) + 取值(Value)

+ 名義(Nominal)                       (1-1)[6]

Perez等人用分類法組織了Ontology,並歸納出本體的五個基本構成元素(建模元語),即:①類(Classes)或概念(Concepts);② 關係(Relations);③ 函數(Functions);④ 公理(Axioms);⑤ 實例(Instances)。

從語義上講,基本的關係共有4種,如表1所示:

表1 基本的關係種類[9]

關係名

關係描述

part-of

表達概念之間部分與整體的關係。

kind-of

表達概念之間的繼承關係,類似於面向對象中的父類與子類之間的關係。給出兩個概念C和D,記C′={x∣x是C的實例},D′={x∣x是D的實例},如果對任意的x屬幹D′,X都屬幹C′,則稱C爲D的父概念,D爲C的子概念

instance-of

表達概念的實例與概念之間的關係,類似於面向對象中的對象和類之間的關係。

attribute-of

表達某個概念是另一個概念的屬性。如概念“顏色”是概念“玫瑰花”的一個屬性。

在實際建模過程中,不一定要嚴格地按照上述5類基本建模元語來創建Ontology,概念之間的關係不限於上面列出的4種基本關係,可以根據領域的具體情況定義相應的關係,以滿足應用的需要,案例如圖1所示。

 

圖1 本體的構成案例[8]

1.1.3 本體的分類

目前關於本體的研究非常廣泛,尤其是在國外,許多研究組織和機構都研究建立了各種各具特色的本體。針對目前出現的各種各樣的本體,也出現了不同的分類方法,最爲廣泛的分類方法是根據本體應用主題,將這些爲數衆多的本體劃分爲五種類型:領域本體、通用或常識本體、知識本體、語言學本體和任務本體。

其中,領域本體在一個特定的領域中可重用,它們提供該領域特定的概念定義和概念之間的關係,提供該領域中發生的活動以及該領域的主要理論和基本原理等。對特定領域的本體研究和開發目前已涉及許多領域,包括企業本體、醫學概念本體、酶催化生物學本體、陶瓷材料機械屬性本體等。

領域本體主要有以下作用: 可以明確專業術語、關係及其領域公理, 使其形式化;在人與人之間、人與機器之間達到共享;實現一定程度的領域知識複用[10]

此外,Guarin也提出以詳細程度和領域依賴度兩個方面對本體進行劃分。其中,根據本體對領域的依賴程度由高到低可分爲四個類別:頂級本體(top-level Ontologies)、領域本體(domain Ontologies)、任務本體(task Ontologies)和應用本體(application Ontologies)[12],如圖2。

 

圖2 依照領域依賴程度的本體分類[5]

1.1.4 本體的應用領域

目前,本體已經被廣泛應用於知識工程、自然語言處理、數字圖書館、信息檢索和Web異構信息的處理、軟件複用、面向對象技術和語義Web等領域。典型的應用有:

(l)基於語義的信息檢索,特別是網絡搜索引擎和數字化圖書館。

(2)基於本體的數據集成、機器學習等。

(3)領域本體的應用。比如,在生物信息學中已建成的GeneOntology,儘管只包括了part-of等簡單的關係,但是對生物信息學界已經有巨大的影響。

(4)語義Web服務。

(5)在線元數據管理和自動信息發佈。[10]

1.2 本體的描述語言

關於本體的標記語言,可稱之爲置標語言,又稱本體的構建語言或者是表示語言。作爲表示本體的語言工具,應該具有如下的基本功能:

1)        爲本體的構建提供建模元語(Modeling Primitives)。

2)        爲本體從自然語言的表示格式轉化成爲機器可讀的邏輯表達格式提供標引工具。

3)        爲本體在不同系統之間的導入和導出提供標準的機讀格式。

4)        形式化語言表示,利用機器可讀的形式化表示語言表示本體,可以直接被計算機存儲、加工、利用,或在不同的系統之間進行互操作。[9]

本體語言使得用戶爲領域模型編寫清晰的、形式化的概念描述成爲可能,因此它應該具備良好定義的語法、語義,有效的推理支持,充分、方便的表達能力。

自上個世紀90年代以來,大量的研究工作者活躍在該領域,因此誕生了許多本體描述語言,有RDF和RDF-S,OWL(注:DAML+OIL認爲它是OWL的一個過渡)、KIF,SHOE,XOL,OCML,Ontolingua,Cycl,Loom。這裏簡單把它們歸類如下:

(l)基於Web的本體語言(也叫做本體標記語言)有:RDF和RDF-S,OWL,SHOE,XOL。其中RDF和RDF-S,OWL,XOL之間有着密切的聯繫,是W3C的本體語言棧中的不同層次,也都是基於XML的。而SHOE是基於HTML的,是HTML的一個擴展。

(2)基於AI(Artificial Intelligence)的本體實現語言有:KIF,Ontolingua,Cycl,Loom,OCML,Flogic。KIF己經是美國國家標準,但是它並沒有被廣泛應用於互聯網,作爲一種交換格式更多的應用於企業級。[10]

1.3 本體的編輯工具

到目前爲止,已經出現了許多本體編寫工具。根據這些工具所支持的本體描述語言,大致可以分爲兩類。

第一類包括Ontolingua、OntoSaurus、WebOnto等。這三個工具的共同點是,都基於某種特定的語言,並在一定程度上支持多種基於AI的本體描述語言。

第二類包括Protégé系列、WebODE,OntoEdit,OliEd等。這些工具最大的特點是獨立於特定的語言,可以導入/導出多種基於Web的本體描述語言格式(如XML,RDF(S),OWL等)。其中,除了OliEd是一個單獨的本體編輯工具外,其他都是一個整合的本體開發環境或一組工具。它們支持本體開發生命週期中的大多數活動,並且因爲都是基於組件的結構,很容易通過添加新的模塊來提供更多的功能,具有良好的可擴展性[10]

1.4 建立本體的難點

本體的構造過程是個費時費力的過程,需要完整的工程化、系統化的方法來支持,目前特定的領域本體還需要專家進行參與。通用的大規模本體很少,大多本體只是針對某個具體應用領域或應用而構造的,在實際應用中,不同本體之間常常需要進行映射、擴充與合併處理,以及根據特定的需要從一個大的本體中提取滿足要求的小的本體等操作,此外,當現實的知識體系發生變化時,先前構造的本體必須作出相應的演化以保持本體與現實的一致性,這都是本體工程所需研究的問題。

本體工程已成爲現階段研究中的一個熱點問題。如何才能大規模的構造本體?如何集成現有的不同本體?如何維護本體及其進化過程?這一系列的問題都需要方法論作爲指導,目前該領域研究還處於探索階段,沒有形成成熟的方法論,是一個有價值的研究方向。

此外,本體構造不僅需要理論上的探討和研究,還必須實實在在的構造出本體。如何能利用軟件系統輔助人們構造本體?這些軟件能在哪些方面自動化或者半自動化的發揮作用?本體開發過程中如何支持協同工作?不同軟件開發的本體如何集成?構造好的本體如何管理和維護?這些也成爲該領域函待解決的問題。[4]

1.5 本體研究的現狀

對本體的研究和應用近年來發展很快。在1998年6月,第一屆“信息系統中的形式化本體論國際會議”的召開標誌着這一領域在逐漸走向成熟。

從國外的研究情況來看,20世紀80年代末至90年代初,哲學領域的概念“Ontology”被AI領域所借鑑,本體的建模方法也初步確立,本體論把知識工程中的知識向更深入的方向推進。近年來,國外對本體建模作了大量研究並將其運用於知識工程領域。主要代表爲:① 萬維網聯盟W3C(World Wide Web Consortium)的研究;② 德國卡爾斯魯厄大學的Rudi Studer,Alexander Maeche和以他們爲首的AIFB研究所從事的創建基於本體的知識門戶和語義門戶的研究;③ 美國斯坦福大學的知識系統實驗室(KSL)對本體建模工具和本體應用層面的研究[9]

與國外相比,國內無論是在理論研究、實證研究還是在技術手段的實現和應用方面都相對落後,與國外高水平的研究相比存在很大差距。國內對於本體的研究大約始於20世紀90年代初。

目前,國內進行本體研究的主要有三支科研力量。一是中國科學院計算所、數學所、自動化所的若干實驗室,代表人物是陸汝鈴院士、金芝博士、武成崗、曹存根等人。二是哈爾濱工業大學計算機系,代表人物是王念濱博士。三是浙江大學人工智能研究所,代表人物是博士生導師高濟教授。

國內外重要的本體系統典型代表有:WordNet、FrameNet、SENSUS 、OntoSeek 、Cyc 、GUM通用上層模型(Generalized Upper Model)、HowNet、Mikrokmos等。

領域本體的構建研究

領域本體(Domain ontology) 是用於描述指定領域知識的一種專門本體,它給出了領域實體概念及相互關係領域活動以及該領域所具有的特性和規律的一種形式化描述[16] 。目前本體構建主要有手工構建、複用已有本體(半自動構建)以及自動構建本體三種方法[17]。本節主要介紹手工構建本體的方法,並歸納出構建領域本體的一般步驟。

2.1 領域本體構建遵循的原則

目前己有的本體很多,出於對各自問題域和具體工程的考慮,構造本體的過程也是各不相同的。由於沒有一個標準的本體構造方法,不少研究人員出於指導人們構造本體的目的,從實踐出發,提出了不少有益於構造本體的標準。通過分析總結,本體的設計原則可以概括如下[10]

① 明確性和客觀性:即本體應該用自然語言對所定義術語給出明確的、客觀的語義定義。

② 完全性:即所給出的定義是完整的,完全能表達所描述術語的含義。

③ 一致性:即由術語得出的推論與術語本身含義是相容的,不會產生矛盾。

④ 最大單調可擴展性:即向本體中添加通用或專用的術語時,不需要修改其己有的內容。

⑤ 最小承諾:即對待建模對象給出儘可能少的約束。

⑥ 最小編碼偏差:本體的建立應儘可能獨立於具體的編碼語言。

⑦ 兄弟概念間的語義差別應儘可能小。

⑧ 使用多樣的概念層次結構實現多繼承機制。

⑨ 儘可能使用標準化的術語名稱。

2.2 本體的構建工程思想

當前,建立本體大部分還是採用手工編輯方式,還遠遠沒有成爲一種工程性的活動,每個本體開發組都有自己的原則、設計標準和定義方法。爲了減少本體構建過程中的人爲參與,現在出現很多基於人工智能的半自動化及自動化本體構建方法。較純手工的本體構建方法相比,這些方法雖然節省了效率,但遺憾的是也沒有達到本體方法學的標準[12]。比較有名的本體構建工程思想有:

2.2.1 IDEF-5方法

IDEF的概念是在70年代提出的,是在結構化分析方法的基礎上發展起來的。在1981年美國空軍公佈的ICAM(integrated computer aided manufacturing)工程中首次用了名爲“IDEF”的方法。IDEF是ICAM Definition method的縮寫,到目前爲止它已經發展成了一個系列。IDEF5是KBSI(Knowledge Based Systems Inc.)開發的一套用於描述和獲取企業本體的方法。IDEF5通過使用圖表語言和細化說明語言,獲取關於客觀存在的概念、屬性和關係,並將它們形式化成本體。

IDEF5創建本體的5個主要步驟是:① 定義課題、組織隊伍;② 收集數據;③ 分析數據;④本體初步開發;⑤ 本體優化與驗證。

2.2.2 Skeletal Methodolody骨架法(Uschold方法)

Mike Uschold & Micheal Gruninger的骨架法(Skeletal Methodology),又稱Enterprise法,專門用來創建企業本體(Enterprise ontology,是有關企業建模過程的本體)。“骨架法”流程見圖3。

不符合

符合

確定只是本體應用的目的和範圍

本體分析

本體表示

本體的建立

本體的評價

評價

 

圖3 骨架法流程圖[1]

2.2.3 TOVE企業建模法

TOVE法,又稱Gruninger & Fox“評價法”是加拿大Toronto大學企業集成實驗室基於在商業過程和活動建模領域內開發TOVE項目本體的經驗,通過本體建立指定知識的邏輯模型。用一階邏輯構造了形式化的集成模型,包含企業設計本體、項目本體、調度本體或服務本體。

TOVE流程見下圖。

 

設計動機

非形式化的系統能力問題

術語的形式化

形式化的系統能力問題

使知識本體趨於完備

將規則形式化爲公理

 

圖4 TOVE流程圖[1]

2.2.4 Methontology方法

Mariano Fernandez & GOMEZ-PEREZ等的Methontology方法是由西班牙Madrid理工大學AI實驗室提出的。該方法是在結合了骨架法和GOMEZ-PEREZ方法後,提出的一種更爲通用的本體建設方法。這個本體開發方法更接近軟件工程開發方法。它將本體開發進程和本體生命週期兩個方面區別開來,並使用不同的技術予以支持。

Methontology法,專用於創建化學本體(有關化學元素週期表的本體),該方法已被馬德里大學理工分校人工智能圖書館採用。它的流程包括:

(1)管理階段:這一階段的系統規劃包括任務的進展情況、需要的資源、如何保證質量等問題。

(2)開發階段:分爲規範說明、概念化、形式化、執行以及維護五個步驟。

(3)維護階段:包括知識獲取、系統集成、評價、文檔說明、配置管理五個步驟。

2.2.5 循環獲取法

Alexander Maedche等的Cyclic Acquisition Process,是一種環狀的結構。基本流程如下:

(1)資源選取:這是環形的起點,是一個通用的核心本體的選擇。任何大型的通用本體(像Cyc、Dahlgren的本體)、詞彙-語義網(像WordNet,GermaNet)、或者領域相關的本體(像TOVE)都可以作爲這個過程的開始。選定基礎本體後,用戶必須確定用於抽取領域相關實體的文本。

(2)概念學習:從選擇的文本中獲取領域相關的概念,並建立概念之間的分類關係。

(3)領域集中:除去領域無關的概念,只留下和領域相關的。這時,建立起了目標本體的概念結構。

(4)關係學習:除了從基礎本體中繼承的一些關係,其它的關係需要通過學習的方法從文本中抽取。

(5)評價:對得到的領域相關的本體進行評價,接着還可以進一步地重複上述過程。

 

圖5 循環獲取法[12]

2.2.6 七步法

斯坦福大學醫學院開發的七步法,主要用於領域本體的構建。七個步驟分別是: ① 確定本體的專業領域和範疇;② 考查複用現有本體的可能性;③ 列出本體中的重要術語;④ 定義類和類的等級體系(完善等級體系可行的方法有:自頂向下法、自低向上法和綜合法[7]);⑤ 定義類的屬性;⑥ 定義屬性的分面;⑦ 創建實例[1]

2.3 構建領域本體的步驟

本體的開發和完善是一個反反覆覆不斷補充的迭代過程。領域本體中的概念應該貼近於要研究的專業領域中的客觀實體和關係法則。綜合上節幾種本體構建的工程思想,歸納並總結出構建領域本體的幾個步驟[11]

2.3.1 確定領域本體的專業領域和範疇

領域知識往往十分龐大的,本體不可能包括所有的概念,因此,在建立本體前必須先確定本體將覆蓋的專業領域、範圍和應用目標,本體應該在哪些方面發揮作用以及它的系統維護者與應用對象。不同的應用領域,領域概念肯定是不同的,即使是同一個領域,由於應用的不同,本體表示的概念的側重點肯定也會有所不同。因此,建立本體之前一定要明確本體建立的領域和應用目標。本體是一個複雜的知識體系,確定每個階段的範圍和目標有助於對本體模型的範圍作一個限定,有利於複雜系統的實現。

2.3.2 考慮複用現有的本體

本體的主要作用就是解決知識的共享和重用問題。所以在設計和建立自己的領域本體之前,應該考慮重用已經存在的本體。如果系統需要和其它的應用平臺進行互操作,而這個應用平臺又與特定的領域本體或相關概念聯繫在一起,那麼複用現有的本體是行之有效的方法。例如Ontolingua的本體文庫可以導入到本體開發系統中,並且本體的格式轉換也並不困難。

2.3.3 列出本體涉及領域中的重要術語

領域本體是描述概念以及概念與概念之間的關係,首先要列舉出該領域中的所有概念以及對該概念的詳細解釋。在特定領域,這些概念就是與領域相關的專業術語。把領域中一些重要術語列舉出來,有利於知識工程師更好地理解本體建立的目標,明確方向。除此之外,針對每個概念,要列出它所有可能的屬性,每個屬性都有對應的屬性值。

2.3.4 定義分類概念和概念分類層次

概念分類層次將領域概念進行分類組織,用於描述領域概念間的類屬關係,並將本體中的概念模塊化。建立一個分類概念的層次結構有3種可行的方法: 自頂向下法、自底向上法和綜合法。

一般領域概念分類層次對應着一棵樹,樹中的節點體現了領域概念間的層次結構關係。樹有四類元素組成:根節點,枝節點,樹枝,葉節點。

建立領域概念的分類關係後,將分類概念的屬性值添加到分類概念中,這樣就把領域概念通過樹形結構形象地描述出來,並且通過樹結構清晰地體現了領域概念間的類屬關係。每一個子樹都對應着領域中獨立的、模塊化的知識模型。

領域分類概念應該包括:概念名稱,語義描述,該概念可能的同義詞、縮略語。定義分類概念,就是對這些信息進行描述。同時,要對所建立的概念分類層次進行檢驗,保證沒有重複的概念,防止冗餘定義。

2.3.5 定義概念之間的關係

概念的分類層次結構體現了分類概念之間的一種繼承關係(kind-of),但是在領域本體中,概念和概念之間通過關係來交互,除了繼承關係,在我們構建的領域本體中還可以根據需要,定義其他的關係。

現有的領域本體構建方法及存在的問題

目前, 領域本體主要依賴手工構建,需要耗費大量的人力, 因此本體的構建成爲第二代互聯網發展的瓶頸。如何自動或半自動構建領域本體成爲研究的熱點。

國內外在本體構建方法上,研究最多的是以下兩種方式:一種是從知識工程的角度,探討本體的構建方法,可稱爲本體工程;一種是探討利用現有的詞表資源,直接向本體轉化的半自動構建方法。此外,丁晟春、李嶽盟等在綜合二者的基礎上提出了基於頂層本體的綜合(半自動)本體構建方法[13]

3.1 構建領域本體的知識工程方法

知識工程方法的主要特點是強調構建本體時要按照一定的規範和標準。相對於一般的系統,本體更強調共享、重用,可以爲不同系統提供一種統一的語言,因此本體構建的工程性更爲明顯。目前爲止,本體工程中比較有名的幾種方法包括TOVE 法、Methontology方法、骨架法、IDEF-5法和七步法等。這些方法大多是手工構建領域本體,具體過程已在上文中介紹,這裏不再贅述。

由於本體工程到目前爲止仍處於相對不成熟的階段,領域本體的建設還處於探索期,因此構建過程中還存在着很多問題。與標準軟件開發生命週期法IEEE1074-1995[IEEE96]相比,還沒有一種本體建設方法體系完全成熟。以上幾種常用方法的成熟度依次爲:七步法、Methontology方法、IDEF-5法、TOVE法、骨架法[13]

3.2 基於敘詞表的領域本體構建

敘詞表又稱爲主題詞表,它是一種語義詞典,由術語及術語之間的各種關係組成,能反映某學科領域的語義相關概念[15]。敘詞表收錄了某一領域的所有敘詞和非敘詞,按照一定順序排列。敘詞表的語義關係包括“用、代、分、屬、參”,分別用來表示敘詞款目之間的等同、等級、相關等語義關係。由於敘詞表包含豐富的領域概念和一定的語義關係,在表達知識結構上與本體有着天然聯繫,包含了本學科領域中相對比較完整的術語,因此,國內外很多學術團體都在嘗試着基於敘詞表進行本體的構建,研究重點在於敘詞表向本體轉換的方法。

目前由敘詞表進行轉換的思路主要有兩種: ① 直接用某種本體表示語言表示敘詞表中的詞彙和關係;② 僅將敘詞表作爲本體中概念的來源。這兩種方式都需要對轉換得到的本體進行屬性、關係的添加和修正, 並添加公理和函數。

國外已經有10多種敘詞表用各種方法轉換爲本體,如由聯合國糧農組織轉換爲農業本體的Agrovoc敘詞表,教育資料網關(GEM) 中的受控詞表,藝術和建築敘詞表(AAT) 等。國外在這方面研究得比較成熟的是通過何種本體表示語言對敘詞表的詞語和關係進行轉換,總結起來有以下幾種:① 用XML Schema構建敘詞標記語言。如澳大利亞CSIRO 的M. Lee 等所開發的敘詞標記語言( TML) ,構建了敘詞描述本體的框架。② 用RDF Schema關係表示敘詞內容。典型的如AAT一類的分面形式的敘詞表,可以將敘詞表某個子集作爲本體某一類屬性的值直接引入。③ 用RDF Schema表示敘詞關係。大多數敘詞表採用的是這種方式轉換,如L IMER和ELSST社會科學敘詞表等。④用DAML + OIL關係表示敘詞關係。DRC提出了一個用DAML +OIL表示敘詞關係的建議。[13]

國內對敘詞表轉化的研究正處於熱點階段,目前已轉化爲本體原型的主要有《國防科學技術敘詞表》和《中國農業科學敘詞表》的一部分。中國農業科學院科技文獻信息中心的常春博士基於《中國農業科學敘詞表》的“作物大類”,構建了一個有關食物安全的本體原型。目前本體原型還正在進一步的完善研究中, 主要是解決核心本體與轉化來的本體概念重複問題以及對敘詞表原有關係細化等問題。中國國防科技信息中心的唐愛民等則對如何基於國防敘詞表來構建國防領域本體進行了研究, 他們結合Enterprise方法、Methontology方法與軟件開發模型——“瀑布模型”提出了一種基於敘詞表的領域本體構建方法。他們通過基於《國防科學技術敘詞表》成功構建了軍用飛機領域本體的原型,構建模型如圖6:

某學科領域敘詞表

確定領域本體的應用目的

領域本體的整體設計

領域本體的詳細設計

領域本體的表示

領域本體的評價

領域本體

 

圖6 基於敘詞表的領域本體的構建流程圖[14]

其中,領域本體的詳細設計過程也可稱爲領域本體的具體構建過程,詳細設計是本方法中最核心、最關鍵的步驟,流程如圖7:

把敘詞轉換成領域本體中的概念

根據敘詞間的層次關係,確定所對應的

領域本體中概念間的等級關係

參考敘詞的限義詞、註釋爲領域本體中的

概念添加屬性

參照敘詞間的關係爲領域本體中的概念添加關係

爲領域本體中的概念添加實例

 

圖7 詳細設計流程圖[14]

3.3 基於頂層本體構建領域本體的構建方法

丁晟春、李嶽盟等認爲,本體構建的理論探討已經比較成熟,但當將構建完的本體與實際應用聯繫起來的時候,就會浮現出本體構建過程中所存在的一些問題:① 領域本體構建與應用脫節;② 領域本體難以複用和集成;③ 由敘詞表難以轉化成真正的本體;④ 本體構建的概念體系不夠規範[13]

針對本體構建與應用中出現的問題,她們深入考察了現有的本體構建方法和國外重要的三大頂層本體(Cyc、SENSUS和SUMO),並與中科院文獻情報中心和中國農科院科技信息文獻中心的專家學者就存在的問題和解決方案進行了深入探討,提出了基於頂層本體開發領域本體的指導方法。該方法從本體工程方法論的成熟度和領域本體構建的特點出發,借鑑了骨架法和七步法,並融合了敘詞表和頂層本體資源,對概念體系的規範化校驗和本體的標準化處理提出了具體的方法和步驟。

研究方法的核心思想是, 從本體工程的基本思想出發, 藉助詞表法對選詞進行規範化處理, 並選擇合適的頂層本體, 對領域本體構建進行標準化處理, 最後將領域本體嫁接入頂層本體中。基於頂層本體的領域本體構建框架如圖8所示。

修正和進化

標準化處理

確定本體的領域和範圍

考慮複用現有本體

定義類及類的等級體系

定義類的屬性

創建實例

概念的規範化處理

頂層本體

本體表示

本體評價

合併入頂層本體

概念

體系

構建

 

圖8 基於頂層本體的構建方法框架[13]

根據上述提出的基於頂層本體的領域本體的綜合構建方法, 她們參照了《世界飛機手冊》和《航空工業科技詞典》等資料,在使用《國防科學技術敘詞表》對概念進行規範化處理的基礎上,構建出初具規模的、能面向實用的軍用飛機領域本體(包含300多個類、70多個屬性、近900個實例) ,最後通過分析上層通用本體SUMO的構建標準和體系結構, 嘗試着將該領域本體嫁接入SUMO中, 以實現本體的可共享和可集成。

3.4 領域本體構建過程中存在的問題

目前領域本體構建的主要三種方法:手工構建、複用已有本體以及自動構建本體,其中前兩種方法最爲常用。目前, 領域本體主要依賴手工構建,需要耗費大量的人力。但綜合來看,三種構建方法都各自存在着不同程度的弊端。

3.4.1 手工構建

儘管本體編輯工具在近10 年已經比較成熟,然而手工構建本體費時、費力且花費巨大,已經成爲不爭的事實。目前的手工構建本體主要方法有TOVE 法、骨架法、IDEF-5法、METHONTOLOGY 法、SENSUS 法、KACTUS 工程法、七步法等綜合性方法。本體手工構建過程尚缺少一套工程化的科學管理流程作爲支撐, 這使得本體的構建主觀性太強, 且比較隨意, 缺少科學管理和評價機制。

以上本體的建設方法存在主要問題有以下幾點[7]

1)        需求描述不充分和建設過程的無計劃性

對於某個領域的本體建設,它的具體需求是很難描述清楚的。所以在沒有充分明確的需求情況下去建設本體,會直接導致本體建設過程的無計劃性,這樣在建設過程中就有可能要重新計劃。

2)        建設過程缺少規範性

領域本體建設還沒有成熟的方法論作爲指導,更不用說對建設過程的規範管理。從軟件開發過程的管理中,可以看出文檔的重要作用。因此,在領域木體建設過程中同樣也得關注文檔,從文檔的編寫中總結出規範。

3)        成果沒有評價標準

本體的評價方法沒有統一的標準,更沒有標準的測試集。不能對本體的建設成果進行合理評價,必然影響到下一個週期中的進化過程。

4)        忽視本體的共享和重用

領域本體建設的目的不能僅爲某一個系統提供服務,而是爲不同系統提供交流的語義基礎。本體建設的過程,也是人類知識機器化積累的過程。所以共享和重用是本體的本質要求,這也是領域本體建設中很重要的問題。

3.4.2 複用已有的本體

上文介紹的基於敘詞表和基於頂層本體的構建方法均屬於複用已有本體的半自動構建方法。複用已有的本體,可以獲得領域知識以及概念關係,使得本體構建有一個很好的起點。

目前可複用的本體資源主要有:① 敘詞表資源,如中國農業科學敘詞表、國防科學技術敘詞表等;② 頂級本體,如Cyc、SUMO、WordNet、FrameNet等; ③ 數據庫資源;④ 在線本體庫,如Ontology Engineering Group 和DAML。

但是,目前很少有現存的不經修改就能被複用的本體,況且有不少領域沒有可供利用的本體資源。同時本體複用帶來了不同本體匹配的問題,本體映射目前仍然是第二代互聯網研究中亟待解決的難題之一。此外有些本體資源改造起來需要大量的投入,改造已有本體的代價是否值得,也是目前正在研究的課題。

3.4.3 自動構建本體[17]

自動構建本體是目前的一個研究熱點。研究者借鑑知識獲取的相關技術,有基於自然語言規則的方法和基於統計分析的機器學習方法。目前這種構建方法還處於研究階段,利用機器學習會產生大量的噪音數據,缺乏必要的語義邏輯基礎, 抽取的概念關係鬆散且可信度無法得到很好的保障。利用自然語言處理技術,概念間潛在關係的分析則需要依賴複雜的語言處理模型。儘管機器學習應用於本體自動構建有巨大的潛力,但是距離良好的可理解性尚有很大的距離,隨着研究的深入這種狀況應該有望得到改善。

 

 

 

 

 

 

 

  論

本體是某一領域共享的、概念化( conceptualization) 、形式化表示的知識體系。第二代互聯網的發展需要大量的領域本體作爲支撐。目前,領域本體主要依賴手工構建,需要耗費大量的人力, 因此本體的構建成爲第二代互聯網發展的瓶頸。

本文在筆者查閱、研究大量期刊和學位論文等資料的基礎上形成的,論文首先對本體的相關理論(包括本體的定義、描述語言、建設工具等)進行介紹,結合領域本體一般構建原則,對各種領域本體構建方法以及存在的問題進行了詳細分析。

創建領域本體的起點可產生自不同情況。可以是從抓取開始,也可以從已存在本體開始,還可從數據源文集開始,或者是後兩個方法的組合。創建本體的自動化程度也是不同的,從完全的人工、半自動化到全自動化。當前, 全自動化的方法只能實現受限條件下的輕量級本體的構建。領域主體的構建是一項極其艱鉅的任務, 如何應用知識獲取技術來降低本體構建的開銷目前也是一個很有意義的研究方向。

 

 

 

 

 

 

 

 

 

 

 

 

 

 考 文 獻

[1] 劉仁寧,李禹生. 領域本體構建方法[J].武漢工業學院學報,2008,27(1):73-77.

[2] 李景,蘇曉鷺,錢平. 構建領域本體的方法[J]. 計算機與農業,2003 (7): 7-10.

[3] 顧芳. 多學科領域本體設計方法的研究[D]. 北京:中國科學院計算機研究所,2004.

[4] 張小鵬. 漢語特定領域本體的自動構造研究[D]. 武漢:華中師範大學,2007.

[5] 吳正超. 基於關係數據庫的領域本體自動構建方法研究[D]. 大連:大連海事大學,2007.

[6] 廖軍. 基於領域本體的信息檢索研究[D]. 長沙:中南大學,2007.

[7] 劉愛軍. 基於領域本體的語義信息檢索及相關技術研究[D]. 西安:西北大學,2008.

[8] 翟林. 領域本體的半自動構建方法研究與實現[D]. 南京:東南大學,2005.

[9] 陳建. 領域本體的創建和應用研究[D]. 北京:對外經濟貿易大學,2006.

[10] 郭嘉琦. 領域本體的構建及其在信息檢索中的應用研究[D]. 北京:北京郵電大學,2007.

[11] 張志剛. 領域本體構建方法的研究與應用[D]. 大連:大連海事大學,2008.

[12] 張囡囡. 面向語義網的領域本體半自動構建方法的研究[D]. 大連:大連海事大學,2008.

[13] 丁晟春,李嶽盟,甘利人. 基於頂層本體的領域本體綜合構建方法研究[J].情報理論與實踐,2007,30(2):236-240.

[14] 唐愛民,真溱. 基於敘詞表的領域本體構建研究[J]. 現代圖書情報技術,2005(4):1-5.

[15] 孫倩,萬建成. 基於敘詞表的領域本體構建方法研究[J]. 計算機工程與設計,2007,28(20):5054-5056.

[16] 肖敏. 領域本體的構建方法研究[J]. 情報雜誌,2006(2):70-72.

[17] 何琳,杜慧平,侯漢清. 領域本體的半自動構建方法研究[J]. 圖書館理論與實踐,2007(5):26-28.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章