語義Web概述

語義Web概述   現有互聯網的飛速發展使它的缺陷逐漸暴露了出來,如網頁功能單調、搜索引擎智能化程度低等,這是因爲大部分Web上的內容是設計給人閱讀的,而不是讓計算機程序按其意義進行操作的。計算機能熟練地解析網頁的版面,知道哪裏是標題,哪裏有與其他頁面的鏈接。但是,它分辨不出個人主頁和天氣預報的區別,因爲沒有可靠的方法來處理其中的語義,沒有辦法智能地理解網頁內容和進行操作。   語義Web就是想彌補這方面的不足,爲網頁擴展了計算機可處理的語義信息。語義Web中,各種資源被人爲地賦予了各種明確的語義信息,計算機可以分辨和識別這些語義信息,並對其自動進行解釋、交換和處理。但是語義Web與人工智能中的語義網絡是兩個不同的概念,它的研究對象和所採用的方法與傳統自然語言處理也是不同的,它對現有的Web進行了語義擴展,從而使其能被計算機做一定的理解和處理,從功能上看它將是一個能夠“理解”人類信息的智能網絡。將語義Web融入現在Web結構的初步努力已經在進行中了。不久的將來,當機器有更強的能力去處理和“理解”數據時,我們將看到很多重要的新功能。例如,某人想報名參加一個研討會,計算機就可自動地爲其制定最佳日程和路線以及預定酒店等。   互聯網的創始人Tim Berners-Lee在2000年提出了語義Web的概念和體系結構。   在其體系結構中,第一層是Unicode和URI,它是整個語義Web的基礎,Unicode(統一編碼)處理資源的編碼,URI(統一資源定位器)負責標識資源;第二層是XML+名空間+XML模式,用於表示數據的內容和結構;第三層是RDF+RDF模式,用於描述資源及其類型;第四層是本體詞彙,用於描述各種資源之間的聯繫;第五層是邏輯,在下面四層的基礎上進行邏輯推理操作;第六層是驗證,根據邏輯陳述進行驗證以得出結論;第七層是信任,在用戶間建立信任關係。   第二、三、四層是語義Web的關鍵層,用於表示Web信息的語義,也是現在語義Web研究的熱點所在。可擴展標記語言XML (eXtensible Markup Language)讓每個人都能創建自己的標籤,來對網頁或頁面的部分文字進行註釋。 腳本,或者說是程序,可以將這些標籤運用到複雜的應用中,不過程序編寫者必須知道網頁作者是如何使用每一個標籤的。簡而言之,XML允許用戶在文檔中加入任意的結構。資源描述框架RDF (Resource Description Framework )的基本結構是對象-屬性-值三元組,也就相當於句子中的主語、動詞和賓語。這些三元組可以用XML語法來表示。用這種結構描述由機器處理的大量數據,是非常自然的方法。RDF模式是一個描述RDF資源的屬性(Property)和類(Class)的詞彙表,提供了關於這些屬性和類的層次結構的語義。   因爲兩個系統可能採用不同的標識符表示同一概念,也可能用一個標識符表示不同的含義,程序若要在兩個數據庫之間進行信息的比較和合並,就必須瞭解某些標識符表示的是否是同一事物。對該問題的一個解決方法就是本體論(Ontology)。本體是概念化的顯式說明,包括分類和一套推理規則。分類定義對象的類別及其之間的關係,使我們能夠表達實體之間的大量關係,而根據推理規則,程序可以進行自動推理。簡單地說,就是在不同的系統間定義一本字典或者度量表,使它們對實體及其之間的關係達成共識,以便交流和共享。   語義Web需要能夠對Web文檔中的術語含義進行形式化描述。DAML+OIL(即DARPA代理標記語言+本體推論語言),OWL(Web本體語言),它們是W3C規範的重要擴充和改進,都是建立在人工智能知識表示基礎之上的本體語言,提供了一種自然方式來描述在Web詞間的類與子類之間的關係,以及在類與類之間(或子類與子類之間)關係上的限制。它們比RDF模式添加了更多的用於描述屬性和類的詞彙,例如類之間的不相交性(Disjointness)、等價性、更豐富的屬性類型、屬性特徵等。   當然,要實現語義Web是遠遠不夠的,更主要的技術難題還在於要讓電腦可以進行更多的“思考”和“推斷”。爲使語義Web工作,計算機必須能訪問結構化的信息集合以及一套推理規則,據此進行自動推理。增加邏輯性——使用規則去推理,選擇行動的方式以及回答問題的方法——是語義Web組織面臨的一個任務。   有了大量富含語義信息的網頁,就好像有了一個巨大的全球互聯的數據庫。有了語義信息的幫助,人們開發出的軟件代理Agent程序的智能和自動化將大大提高,它們從不同的資源中收集網頁內容,搜索和處理信息並和其他程序交換信息,真正發揮語義Web的力量。當出現更多的機器可處理的網頁內容和服務(包括更多的代理)時,通過代理之間的信息交換和協同工作,信息處理的效率將呈指數級增長,能更好地滿足用戶的需求。   網 格   網格是一種新興的技術,正處在不斷髮展和變化當中。簡單地說,網格是一種信息社會的網絡基礎設施,是利用互聯網把分散在不同地理位置上的多個資源,包括計算資源、存儲資源、通信資源、軟件資源、信息資源、知識資源等全面連通和統一分配、管理及協調起來,通過邏輯關係組成一臺“虛擬的超級計算機”。這臺機器把每一臺參與其中的、包括個人電腦在內的計算機都作爲自己的一個“節點”,成千上萬個這樣的“節點”並聯起來,就組成了“一張有超級計算能力的網格”。而每一位將自己的計算機連接到網格上的用戶,也就“擁有了”這架超級計算機,可以隨時隨地調用其中的計算和信息資源,在獲得一體化信息服務的同時,最大程度地實現資源共享。網格計算模式首先把要計算的數據分割,然後不同節點的計算機可以根據自己的處理能力下載一個或多個數據片斷。只要位於某個節點的計算機的用戶不使用計算機時,就會調動閒置的計算能力。網格的優勢在於不但數據處理能力超強,而且能充分利用網上的閒置處理能力來節約計算成本,實現資源的共享,消除資源孤島。   網格計算技術首先出現在科研領域的大型科學計算和項目研究中,醫藥、製造、氣象、勘探等需要大型計算機功能的行業將首批成爲這一技術的受益者,隨着連接到網格系統上的計算資源的增加,網格計算技術也會造福於小企業和消費者,家庭PC用戶也將能夠用上公、私機構提供的更快、更廉價的服務,到那時任何設備可以在任何地方接入以享用某種層次的資源,而不必關心這些資源是從那裏來的, 就像用現在的電網一樣。   美國自然科學基金於1997年啓動了高級計算框架計劃(PACI),歐盟於2000年和2001年分別啓動了EuroGrid和DataGrid。2001年全球網格論壇(Global Grid Forum)成立, 這是一個規範網格研究,制定網格標準的國際組織。就像TCP/IP協議是Internet的核心一樣,構建網格也需要對標準協議和服務進行定義。迄今爲止,網格還沒有正式的標準,但在覈心技術上,相關機構與企業已達成一致:由美國Argonne國家實驗室與南加州大學信息科學學院(ISI)合作開發的Globus Toolkit已成爲網格計算事實上的標準。企業界的網格相關研究開發工作中,最重要的就是Web服務。目前,一些業界巨頭已經就幾個底層標準協議達成了共識,包括XML、SOAP、WSDL、UDDI等。   語義網格   結合語義Web、網格和Web服務的優點和彌補各自的不足,研究人員提出了語義網格的概念。附圖表明瞭Web、網格、語義Web和語義網格的關係,網格是Web在計算能力上的提升,而語義網格是網格在語義能力上的擴展;從另一個角度說,語義Web是在現有Web上增強了語義能力,而語義網格是語義Web對計算能力的擴展。   在英國的e-Science計劃研究中,人們發現,網格的現有努力和e-Science設想之間存在差距,要達到e-Science的易用性和無縫自動化要求,必須實現儘量多的機器可處理性和儘量少的人類介入,這卻和語義Web的目標有一些相似,於是在2001年最先提出了語義網格的構想,並且於2002年在全球網格論壇GGF成立了語義網格研究組SEM-GRD。他們的語義網格構想的關鍵之處就是把所有的資源,包括服務,都用一種機器可處理的方式來描述,其目標是實現語義的互操作性。達到這個目標的一種實現方法是把語義Web的技術應用到網格計算的開發中,下至基礎設施上至網格應用。值得注意的是“語義”是從下到上瀰漫在整個網格中而不是僅僅在其上增加了一個語義(知識)層。   中國科學院計算技術研究所知識網格研究組在諸葛海研究員的帶領下正在開展語義網格方面的研究,通過採用新的計算模式和新的資源組織和管理的模型,可有效地輔助用戶進行資源獲取、共享、管理、協同工作和決策等,爲人們提供更深層、更全面、更智能的服務。重點解決三個科學問題:資源的規範組織、語義互聯和智能聚合。   ·規範組織。提出資源空間模型和資源的規範化組織和管理的理論、方法、技術和工具,使各種無序資源(信息、知識和服務)規範組織,使用戶和服務能夠有效、正確地根據語義操作各種資源,以提高資源的使用效率。   ·語義互聯。通過多層語義互聯和單一語義映像,使分佈在全球的各種網絡資源在語義層上互聯,消除資源孤島,主要通過類型化的語義鏈網絡來使資源的語義能被機器所理解。   ·智能聚合。解決如何使資源能夠互相理解,根據用戶的需求有效、動態、智能地聚合各種資源,這主要通過軟設備來實現。      語義Web的概念和體系結構      Web、網格、語義Web和語義網格的關係
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章