本體庫的建立與標註

 本觀點:本體的建立及本體庫的標註問題;
在本體的建模階段,大部分的建模工作都集中在領域知識的抽象表示上,即發現領域內的概念、概念的繼承層次、潛在的關係和公理等。對於領域中的實例,在建模時一般不需要考慮它們,除非建模時就能確定該本體所涉及的所有實例。實際上,通常的本體都具有一定的通用性,表示特定領域內的知識,但由於領域內可能的實例數目無窮無盡且動態變化,因此,只有本體和一個具體的應用結合時考慮實例纔有意義。將現實應用中涉及的實例和抽象的本體概念相聯繫,這正是語義標註(Semantic Annotation)所要做的工作。和數據庫類比,語義標註就如同爲建立好的數據庫表添加具體的紀錄。


從語義Web的角度來看,在傳統Web上添加語義信息,將Web的狀態從機器可讀提高到機器可理解,這是整個語義Web實現的基礎。通常,這種語義信息的添加是基於本體進行的,稱之爲語義標註。語義標註將推動語義Web走向實際應用,智能Agent能夠根據Web上的語義信息實現智能推理任務,並能提高信息檢索的精確性。
如果將本體看作簡化了的知識庫,那麼從本體的角度來看,添加實例,即進行語義標註,可視爲豐富本體的過程。如果站在語義Web的角度來看,語義標註便是語義信息的發佈過程:用戶依據一定的本體,爲頁面添加語義信息。然而,語義Web中的標註問題由於受到多方面因素的影響,變得很複雜。一部分人希望語義Web上的語義信息能像頁面本身的創建一樣,由用戶來完成,因爲任何機構都不可能完成如此龐大的語義標註任務。這樣一來,任何用戶都能夠選擇或創建自己喜好的本體,並利用它們來標註頁面。這些本體的規模通常是小型的。目前的很多研究者都支持這種觀點,它們認爲語義Web將建立在無數的小本體之上,正如Rousset在ISWC2004大會上的特邀演講中所說的:“Small can be beautiful in the Semantic Web”[Rou04]。但這種觀點的缺點也很明顯:大量的小本體往往是異構的,這將造成在使用語義信息的過程中需要頻繁執行處理本體異構的操作,給應用系統帶來沉重的負擔。爲了克服第一種觀點的缺陷,一部分人希望某些大型的機構能提供一些權威而通用的大本體,讓用戶在標註的過程中使用。但這樣做也同樣會導致很多問題:首先,本體的提供者如果被少數機構壟斷,那將大大限制了用戶表達自己思想的自由,Web從此失去了它與生俱來的自由本質;其次,目前的研究已經表明,創建涵蓋人類多個方面知識的大規模本體極其困難,而又要讓這樣的本體得到Web用戶的公認,這個目標更難以達到;最後,也是最重要的問題是:什麼機構或組織能提供這樣的本體呢?W3C還是ISO?Google還是Yahoo?美國國家標準局還是中國國家標準局?這種本體的標準之爭必然會涉及到不同國度、歷史背景和文化,很難有一個最終的結果。在我們看來,上述兩種觀點都過於極端,切實可行的標註方案應該是二者的折中,既要保證標註的本體具有一定的通用性,又要保證它能滿足用戶的要求。涉及專業領域的本體可由領域中的權威機構統一制定,如醫學中的UMLS本體,而涉及文化衝突的本體制定時可以考慮多個版本。因此,對語義Web來說,語義標註不僅僅是一種技術,更是一種文化。
語義標註技術也碰到了經典的“雞與蛋”的問題:一方面通常的網頁創建者很不願意爲創作的網頁內容提供語義標註,除非他親自感受到那樣做所帶來的巨大好處;另一方面只有大規模的語義標註數據存在,並在Web上實現優於現有技術或現有技術不能解決的應用,纔可能有更多人或團體願意提供語義標註。最後,在語義標註過程中通常既要保證個人的觀點,又要比較權威的專家的意見,而且還需要大量本體來滿足不同用戶的需求;某些用戶僅希望通過標註來更快地找到標註對象所對應的網站,而那些本身知道鏈接的高層用戶還要求進一步獲得關於標註對象的更精確的描述。
作爲語義Web的基礎,很多研究機構都對其進行了深入的研究,但並沒有取得根本性的進展。至今,語義標註仍然是語義Web實現的瓶頸問題。
------------------------------------------------------------------------------
本觀點: 本體的建立未必需要統一的標準,具體應該針對具體的應用場景;
就如各種軟件,各種數據庫很多內容不被共享,很多本體也不是爲了通用而建立的。大家有了一個具體的項目,如果使用本體會有比較好的效率,纔會去建立這麼一個領域專用本體。我發現國內的研究人員存在空空地去建立一個本體,然後爲這個本體去尋找一個用途,基本上是本末倒置了。所以纔會出現樓上朋友的問題。

本體的建立,本來大家就各建各的。就如中國人看中文網頁,美國人看英文網頁道理一樣,沒有必要做到統一的標準。也沒有聽說網頁的設計,軟件的設計要有嚴格統一的標準咯。只要有統一的語言和正確的過程,就可以了。

本體研究很注重規模效應,一個學校幾個人小打小鬧根本不會出好成果。一個實驗室幾十人幾百萬的年投入纔可能。這種除了國家重點實驗室,國內還沒有這個條件。說到底,構建本體,本題標註等等技術和理論都不是瓶頸,瓶頸在錢。protege爲什麼能流行最廣,德國的KAON卻不行,還不是開發protege的幾所實驗室財力雄厚?
------------------------------------------------------------------------------
本觀點:涉及本體的多語言實現問題;
本體建立應該說可以分成自頂向下和自底向上兩種,兩者各有優勢。
但是似乎目前更多的做法是自頂向下的,就是先建頂層本體,在一步步擴展,直到領域應用所需要的本體。

同時我還認爲本體與語言還不一樣,語言可能有不同的語言的差別,但是本體應該是概念的表達,是獨立於語言的更爲本質的東西。所以在建立本體時對概念應該先給它一個URI,然後指出某種語言稱這個概念爲“……”。

比如說要表達 人 這個概念,我們可以先爲它制定一個URI“http://www.pp.pp#person”,然後將其屬性“EnglishName”設爲“person”,屬性“中文名”設爲“人”。
這樣以後才能真正的建立一個廣泛的可共享的概念體系:這時候我們如果需要檢索“人”這個概念的時候,可以檢索出使用不同語言標註出來的信息,也可以使用任何一種語言進行檢索。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章