Ontology ---------- the definition of philosophy and in IT field

 Prologue:

Once I step into the accademical research of cloud computing, I have read many papers. Ontology is a popular word which I don't know.

Besides the below definition, it can be concluded as well-structured system to describe or define a new field or object!

 

 

目錄

什麼是本體論
本體論的研究
本體論其他表述
如何構建一個簡單的本體
本體論的基本問題

什麼是本體論

  本體論:Ontology(本體論)一詞是由17世紀的德國經院學者郭克蘭紐(Goclenius,1547-1628)首先使用的。此詞由ont(ντ)加上表示“學問”、“學說”的詞綴——ology構成,即是關於ont的學問。ont源出希臘文,是on(ν)的變式,相當於英文的being ;也就是巴門尼德(Parmenides)的“存在 ”。 “本體”的研究,在希臘哲學史上有其淵源。從米利都學派開始,希臘早期哲學家就致力於探索組成萬有的最基本元素——“本原”(希臘文arche,舊譯爲 “始基”)。對此“本原”的研究即成爲本體論的先聲,而且逐步逼近於對being 的探討。之後的巴門尼德深刻地提出,“是以外便無非是,存在之爲存在者必一,這就不會有不存在者存在”。並且認爲存在永存不變,僅有思維與之同一,亦僅有 思維可以獲致此真理;而從感覺得來者僅爲意見,從意見的觀點看,則有存在和非存在,存在既非一從而有變滅。巴門尼德對being(是,存在)的探討, 建立了本體論研究的基本方向:對於被“是者”所分有的“是”,僅只能由思維向超驗之域探尋,而不能由感覺從經驗之中獲取;此在超驗之域中尋得之“是”,因 其絕對的普遍性和本原性,必然只能是一。不過,這一點只有蘇格拉底和柏拉圖才能真有領會,與他同時的希臘哲人或多或少地有所忽略。因而,如原子論者雖然也 區分了真理認識和闇昧認識,認識到思維與感覺的不同;但其探尋的“本原”可否由經驗獲致卻極模糊,因而實際上並未能區分超驗和經驗。而在蘇格拉底那些沒有 最終結論的對話中,已破除了經驗歸納方法獲取真理的可能性;在柏拉圖的理念論中,則鮮明地以超驗世界的“理念”爲真理之根本。

本體論的研究  
    在古希臘羅馬哲學中,本體論的研究主要是探究世界的本原或基質。各派哲學家力圖把世界的存在歸結爲某種物質的、精神的實體或某個抽象原則。巴門尼德提出了唯一不變的本原“存在”,使關於存在的研究成爲這一時期的主題。亞里士多德 認爲哲學研究的主要對象是實體,而實體或本體的問題是關於本質、共相和個體事物的問題。他認爲研究實體或本體的哲學是高於其他一切科學的第一哲學。從此,本體論的研究轉入探討本質與現象、共相與殊相、一般與個別等的關係。在西方近代哲學中,笛卡爾 首先把研究實體或本體的第一哲學叫做“形而上學的本體論”。17~18世紀,萊布尼茨及其繼承者沃爾夫試圖通過純粹抽象的途徑建立一套完整的、關於一般存在和世界本質的形而上學,即獨立的本體論體系。沃爾夫把一般、晉遍看作是脫離個別、單一而獨立存在的本質和原因。康德 一方面認爲建立抽象本體論的形而上學不可能,本體論要強研究的只能是事物的普遍性質及物質的存在與精神存在之間的區別;另一方面又用與認識論相割裂的、先驗的哲學體系來代替本體論。黑格爾 在唯心主義基礎上提出了本體論、認識論和邏輯學統一原則,並從純存在的概念出發構造了存在自身辯證發展的邏輯體系。
  在現代西方哲學中,一些流派(實證主義、分析哲學等)反對任何形而上學和本體論。但也有些人試圖重新建立關於存在學說的本體論,如胡塞爾的 “先驗的本體論”、海德格爾的“基本本體論”、哈特曼的“批判本體論”等,他們往往藉助於超感覺和超理性的直覺去建立概念體系,其觀點帶有唯心主義或不可 知論,且往往同錯誤的社會觀點相聯繫,爲宗教哲學所支持。
  在中國古代哲學中,本體論叫做“本根論”,指探究天地萬物產生、存在、發展變化根本原因和根本依據的學說。中國古代哲學家一般都把天地萬物 的本根歸結爲無形無象的與天地萬物根本不同的東西,這種東西大體可分爲三類:(1)沒有固定形體的物質,如“氣”;(2)抽象的概念或原則,如“無”、 “理”;(3)主觀精神,如“心”。這三種觀點分別歸屬於樸素唯物主義、客觀唯心主義和主觀唯心主義。在中國哲學史的研究中,有些學者用“本體論”一詞專 指那種在物質世界之外尋找物質世界存在依據的唯心主義學說,如魏晉時期王弼的貴無論。
 

本體論其他表述

本體論(ontology)是哲學概念,它是研究存在的本質的哲學問題。但近幾十年裏,這個詞被應用到計算機界,並在人工智能、計算機語言以及數據庫理論中扮演着越來越重要的作用。
  然而,到目前爲止,對於本體論,還沒有統一的定義和固定的應用領域。斯坦福大學 的Gruber給出的定義得到了許多同行的認可,即本體論是對概念化的精確描述(Gruber,1995),本體論用於描述事物的本質。
  在實現上,本體論是概念化的詳細說明,一個ontology往往就是一個正式的詞彙表,其核心作用就在於定義某一領 域或領域內專業詞彙的還以及他們之間的關係。這一系列的基本概念如同工程一座大廈的基石,爲交流各方提供了一個統一的認識。在這一系列概念的支持下,知識 的搜索、積累和共享的效率將大大提高,真正意義上的知識重用和共享也成爲可能。
  本體論可以分爲四種類型:領域、通用、應用和表示。領域本體包含着特定類型領域(如電子、機械、醫藥、教學)等的相關知識,或 者是某個學科、某門課程中的相關知識;通用本體則覆蓋了若干個領域,通常也稱爲核心本體;應用本體包含特定領域建模所需的全部知識;表示本體不只侷限於某 個特定的領域,還提供了用於描述事物的實體,如“框架本體”,其中定義了框架、槽的概念。
  可見,本體論的建立具有一定的層次性,在教學領域而言,如果說某門課程中的概念、術語及其關係看成是特定的應用本體,那麼所有課程中的共同的概念和特徵則具有一定的通用性。
  Ontology 這個哲學範疇,被人工智能界賦予了新的定義,從而被引入信息科學中。然而信息科學界對 Ontology 的理解也是逐步發展才走向成熟的。1991 年 Neches 等人最早給出 Ontology 在信息科學中的定義:“給出構成相關領域詞彙的基本術語和關係,以及利用這些術語和關係構成的規定這些詞彙外延規則的定義。”後來在信息系統、知識系統等領域,隨着越來越多的人研究 Ontology,產生了不同的定義。1993 年 Gruber 定義 Ontology 爲“概念模型的明確的規範說明”。1997 年 Borst 進一步完善爲“共享概念模型的形式化規範說明”。Studer 等人對上述兩個定義進行了深入研究,認爲 Ontology 是共享概念模型的明確的形式化規範說明,這也是目前對 Ontology 概念的統一看法。
  Studer 等人的 Ontology 定義包含四層含義:概念模型(Conceptualization)、明確(Explicit)、形式化(Formal)和共享(Share)。“概念模 型”是指通過抽象出客觀世界中一些現象(Phenomenon)的相關概念而得到的模型,其表示的含義獨立於具體的環境狀態;“明確”是指所使用的概念及 使用這些概念的約束都有明確的定義;“形式化”是指 Ontology 是計算機可讀的,也就是計算機可處理的;“共享”是指 Ontology 中體現的是共同認可的知識,反映的是相關領域中公認的概念集,它所針對的是團體而非個體。Ontology 的目標是捕獲相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞彙,並從不同層次的形式化模式上給出這些詞彙(術語)和詞彙之間相互關係的明確定義。
  儘管定義有很多不同的方式,但是從內涵上來看,不同研究者對於 Ontology 的認識是統一的,都把它當作是領域(領域的範圍可以是特定應用中,也可以是更廣的範圍)內部不同主體(人、機器、軟件系統等)之間進行交流(對話、互操作、共享等)的一種語義基礎,即由 Ontology 提供一種共識。而且 Ontology 提供的這種共識更主要的是爲機器服務,機器並不能像人類一樣理解自然語言中表達的語義,目前的計算機也只能把文本看成字符串進行處理。因此,在計算機領域討論 Ontology,就要討論如何表達共識,也就是概念的形式化問題。
  Semantic Web 中的 Ontology
  Ontology 研究熱點的出現還與 Semantic Web 的提出和發展直接相關。
  Semantic Web 是 Tim Berners-Lee 提出的又一個概念。Tim Berners-Lee 認爲,當前的 Web 是供人閱讀和理解的,它作爲一個越來越大的文件媒體,並不利於實現數據和信息的自動化處理。新一代的 Semantic Web 將不僅僅爲人類而且能爲計算機(信息代理)帶來語義內容,使計算機(或信息代理)能夠“理解”Web 內容,進而實現信息處理的自動化。他認爲 Semantic Web 不是與當前 Web 隔離的另一個 Web,而是對當前 Web 的擴充,在 Semantic Web 中,信息的語義經過完好的定義,能夠更好地促進計算機和人之間的相互合作。
  爲了實現 Semantic Web 的功能,需要提供一種計算機能夠理解的、結構化的語義描述機制,以及一系列的推理規則以實現自動化推理。Semantic Web 的挑戰在於提供一種語言,
  它能夠表述數據和在數據中進行推理的規則,而且需要這種語言能夠將目前存在於知識表述系統之中的規則能夠被應用到 Web 上。
  在 Tim Berners-Lee 的 Semantic Web 框架中,有幾個關鍵的組成元素。它們分別是 XML,RDF(S) 和 Ontology。
  XML 允許用戶定義自己的文件類型,允許用戶定義任意複雜的信息結構,但是 XML 只具有語法性,它不能說明所定義的結構的語義。XML 之所以在 Semantic Web 中處於重要的地位與 XML 是一種載體語言、XML 命名機制等有很大的關係。
  在 Tim Berners-Lee 看來,語義的描述是通過 RDF 進行的。RDF 的兩個特性對此有着特殊的貢獻:
  (1)RDF 是一種由資源、屬性、屬性值組成的三元結構。這種三元結構形似句子中的主語、謂語、賓語之間的關係。一個描述資源的 RDF 語句,就如同“某件事具有什麼樣的屬性”這樣的句子一樣有效。它能夠表明一種對事物存在狀態的斷言,可以表述大多數情況下計算機需要處理的知識。
  (2)RDF 的另一個重要特點就是組成 RDF 的資源、屬性、屬性值這三個元素都必須是被 URI(統一資源標識)所標識的。由於 RDF 利用 URI 來對信息進行編碼,它意味着被 RDF 所引用的任何資源、屬性和屬性值都是經過預先定義的、不具二意性的概念。
  由於 RDF 能夠表示陳述句,並且主語、謂語和賓語的三個組成元素都是通過 URI 所標識的,所以它具有語義表述的特性。但 Semantic Web 的要求還遠不止於此,Semantic Web 還需要加入邏輯功能:Semantic Web 需要能夠利用規則進行推理、選擇行動路線和回答相關問題。Ontology 是 Semantic Web 實現邏輯推理的基礎。
  Semantic Web 研究者也認爲,Ontology 是一個形式化定義語詞關係的規範化文件。對於 Semantic Web 而言,最典型的 Ontology 具有一個分類體系和一系列的推理原則。其中,分類體系定義對象的類別和類目之間的關係。實體之間的類/子類關係對於 Web 應用具有重要的價值。在 Ontology 中,還可以爲某個類添加屬性來定義更多的類目關係。這些類目關係提供了的推理的基礎。
  藉助 Ontology 中的推理規則,Semantic Web 應用系統可以提供更強的推理能力,例如可以在一個地理 Ontology 中加入這樣一條規則,“如果一個城市代碼與一個省代碼相關,並且一個地址利用了城市代碼,那麼這個地址與就與相應的省代碼相關”。通過這一規則,程序可以推理出中國科學院文獻情報中心,在中關村,應當在北京市。
  爲了 Semantic Web 研究者爲了實現對 Ontology 的描述,在 RDF 的基礎之上,發展了 RDFS。RDFS 藉助幾個預先義的語詞(如 rdfs:Resource, rdfs:Class, rdf:Property, rdfs:subClassOf, rdfs:subPropertyOf, rdfs:domain, rdfs:range)能夠對概念之間的關係進行有限的描述。爲了更方便全面地實現 Ontology 的描述,W3C 在 RDFS 的基礎之上,藉助了 DAML 和 OIL 的相關研究,正在積極推進 OWL(Web Ontology Language)的應用。自 2004 年 2 月 10 日,OWL 已經成爲了一個 W3C 推薦的標準。
  Gene Ontology
  爲了查找某個研究領域的相關信息,生物學家往往要花費大量的時間,更糟糕的是,不同的生物學數據庫可能會使用不同的術語,好比是一些方言一樣,這讓信息查找更加麻煩,尤其是使得機器查找無章可循。Gene Ontology (GO) 就是爲了解決這種問題而發起的一個項目。
  Gene Ontology 中最基本的概念是 term 。GO 裏面的每一個 entry 都有一個唯一的數字標記,形如 GO:nnnnnnn,還有一個 term 名,比如 "cell", "fibroblast growth factor receptor binding",或者 "signal transduction"。每個 term 都屬於一個 ontology,總共有三個ontology,它們分別是 molecular function, cellular component 和 biological process。
  一個基因 product 可能會出現在不止一個 cellular component 裏面,也可能會在很多 biological process 裏面起作用,並且在其中發揮不同的 molecular function。比如,基因 product "cytochrome c" 用 molecular function term 描述是 "oxidoreductase activity",而用 biological process term 描述就是 "oxidative phosphorylation" 和 "induction of cell death",最後,它的 celluar component term 是 "mitochondrial matrix" 和 "mitochondrial inner membrane"。
  Gene Ontology 中的 term 有兩種相互關係,它們分別是 is_a 關係和 part_of 關係。is_a 關係是一種簡單的包含關係,比如 A is_a B 表示 A 是 B 的一個子集。比如 nuclear chromosome is_a chromosome。part_of 關係要稍微複雜一點,C part_of_D 意味着如果 C 出現,那麼它就肯定是 D 的一部分,但 C 不一定總會出現。比如 nucleus part_of cell,核肯定是細胞的一部分,但有的細胞沒有核。
  Gene Ontology 的結構是一個有向無環圖,有點類似於分類樹,不同點在於 Gene Ontology 的結構中一個 term 可以有不止一個 parent。比如 biological process term "hexose biosynthesis" 有兩個 parents,它們分別是 "hexose metabolism" 和 "monosaccharide biosynthesis",這是因爲生物合成是代謝的一種,而己糖又是單糖的一種。
  Gene Ontology 使用 Oxford Dictionary of Molecular Biology (1997) 中的定義,在分選時還要參考 SWISS-PROT, PIR, NCBI CGAP, EC…中的註釋。建立起來的標準不是唯一的標準(這是 GOC 所一直強調的),自然也不規定每個研究者必須遵循這套控制字集系統。所採用的動態結構 (dynamic structure) 使用 DAGs(Directed Acyclic Graphs) 方式的 network,將每一個 ontology 串連起來,形成樹狀結構(hierarchical tree),也就是由前面所說的“is a”和“part of”兩種關係。
  由於 GO 是一種整合性的分類系統,其下的 3 類主 ontology 我們前面說是獨立的,但是無論是 GOC 原初的設計還是我們的使用中其實都還是存在一定的流程關係。一個基因/蛋白質或者一個 ontology 在註解的過程中,首先是考慮涉及在構成細胞內的組分和元件 (cellular component),其次就是此組分/元件在分子水平上所行使的功能 (molecular function),最後能夠呈現出該分子功能所直接參與的生物過程 (biological process)。由於這是一種存在反饋機制的註釋過程,並且整個系統是動態開放實時更新的,因此在某種程度上說它具有糾錯的能力。
  TAMBIS 計劃是目前唯一實現了在概念和聯繫層次上集成信息源的系統。但是還有其他一些相關計劃正在研究之中。
  比如 BioKleisli (賓夕法尼亞大學計算機系),採用 Mediator(調節器)技術實現了若干數據源的集成,其後的 K2/Kleisli 系統還利用數據倉庫實現了 OLAP(聯機分析處理)。
  DiscoveryLink (IBM 研究院),基於 Wrapper/ Mediator(包裝器/調節器)實現了信息源集成,提出了查詢的分解和基於代價的優化策略。
  TAMBIS (曼徹斯特大學計算機系)基於 Wrapper/ Mediator 實現了信息源集成,藉助 BioKleisli 中的 CPL 語言作爲查詢語言並給出了查詢優化的方法。通過 TaO(TAMBIS Ontology)本體定義爲用戶瀏覽和查詢處理提供領域知識。
  TINet (GSK 公司和 IBM 研究院),基於多數據庫中間件 OPM(Object-Protocol Model,對象協議模型)定義數據源的對象視圖,其 CORBA(Common Object Request Broker Architecture,公共對象請求代理體系結構)服務器使各數據源 Wrapper(包裝器) 更易於擴充。
  但是他們都存在一定的缺陷。BioKleisli 系統查詢能力相對較弱,而且並未給出查詢優化策略;TAMBIS 系統和 DiscoveryLink 系統集成的數據源數量相對還很少,後者在查詢處理中並未運用領域知識,因而查詢分解也未從語義角度考慮;TINet 系統中的查詢處理能力不強。
  現在面臨的突出問題是在數據庫查詢中尤其是當多個數據庫存在信息重疊時,缺乏從中選擇最佳檢索成員,動態生成優化檢索方案的能 力。而且現有的工作主要面向數據集成,而對服務集成考慮不多。支持數據與服務綜合性集成的體系仍欠完備。因此這也將是 GO 未來發展和提升的一個重要方向。
如何構建一個簡單的本體   
在實際的應用中,本體論學者、知識管理、人工智能、情報學(圖書館學)甚至任何一個具有大量需要歸類和劃分信息的部門及領域都可以成爲本體論的 應用對象。本體論的基本元素是詞彙(term)/概念(concept),轉而構成同質化的類(class)和子類(sub-class),然後各個類和 概念之間加入了適合的關係(relation)後,形成了一個簡單的本體。概念和類皆用來表達詞彙本身,而關係則爲詞彙提供連接(mapping),並加 入限制條件(constraint),使之與現實情況相符合。
  構建本體最爲常用的軟件是由斯坦福大學開發的Protege,最初是應用在醫學領域,後來被逐漸的擴展至其它領域。該軟件本身也是一個開源軟件,用戶可以在http://protege.stanford.edu/上免費下載安裝。
  構建本體的簡單步驟是:
  1. 列出研究課題所涉及到的詞條(terms)
  2. 按照詞條的固有屬性和專屬特徵進行歸納和修改,對詞條建立類(class)以及層級化的分類模型(taxonomy)
  3. 加入關係(relation)連繫terms和taxonomies
  4. 按照需要,添加實例(instance)作爲概念的具象
  最後在Protege中,還可以利用其附帶的功能和插件對本體進行文字和圖形化的導出,格式也可以自由選擇。
 

本體論的基本問題

  on

tology的根本問題是:“存在的最初分類是什麼?”不同流派的哲學家對這個問題有不同的解釋。
  這個問題使得在神學、圖書館學和人工智能的研究方面都需要運用本體論的知識,而且反映到宇宙學、道德和審美觀念上。另外存在論提出的問題還包括:
  什麼是存在?
  什麼是物質物體?
  什麼是物體的基本屬性
  用什麼區別確定一個物體?
  “物質物體存在”的基本定義是什麼?
  物體的特性是什麼?
  存在的特性是什麼?
  什麼時候物體不再存在?並不僅僅是變化。
  爲什麼物體可以相對於虛無存在?
  存在論歷史
  存在論最早可推朔到古希臘的柏拉圖和亞里士多德,亞里士多德曾經定義存在論爲“研究物體的存在的科學”。具體地說是研究物體的分類,也就是說:在什麼情況下,一個物體可以被定義爲“存在”。比論包括“普遍”的問題和“具體”的問題
  觀念,物體,聯繫
  關於存在可以提出許多問題:“什麼是存在?”“什麼在存在?”“我是什麼?”等,對於本體論來說,最基本的是找出什麼是物體、 什麼是觀念以及它們之間的聯繫。啓蒙時代笛卡兒提出的“我思故我在”開啓了本體論基本問題的先例,但笛卡兒並沒有深入研究,也認爲沒有深入研究的必要,他 認爲“我思故我在”證明了上帝的存在,後來的神學家們也認爲:“究竟是誰可以將這句話普遍應用到一切事物中?”當然只有上帝。但到了20世紀,當數理哲 學,科學哲學和基本粒子物理學的新發現,將以前許多物質的所謂界限都打破了,人們不再滿足於神學的說法。
  實體和環境
  在20世紀各個不同時期存在着形而上學的主觀主義學派,客觀主義學派,相對論學派等不同流派,後現代主義的實體哲學家們力圖通 過在不同環境下的哲學行動來重新定義上述的各個問題,主要依賴於生物學、生態學和認知科學的最新研究成果,瞭解動物在自然和人工提供的環境中的認知情況。
  命題相對於不同環境的變化,使得存在更難定義。如果人們說:“A是B”,“A必定是B”或“A曾經是B”究竟有什麼含義?有的 哲學家主張去掉英語中的“是”一詞,改用以免造成容易混淆的抽象含義;另一些哲學家力圖瞭解詞彙中的深層含義和使用方式;馬丁·海德格爾想區分開“存在” 和“物體”的意義。
  存在
  存在主義者認爲“存在”是最基本的概念,好多事物都可以說“是”,動詞“是”有許多種用法,因此是易於混淆的,所以有許多種存在。
  簡單的說,本體論就是探討這個世界上存在的一切是不是在背後都有一個抽象的、不依賴於現實世界的基礎。精神的或是物質的,是不 是都有自己的抽象的根據。簡單的說,形而下就是指的現實的我們可感的世界,而形而上指的是可感的世界背後的原因,是抽象的,是不可感的,並且是作爲可感世 界的根據存在的。本體論就是探討形而下的世界的形而上根據的。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章