元數據的多角度透視

 元數據的多角度透視

一 、元數據的概念
    元數據最本質,最抽象的定義爲:data about data (關於數據的數據)。它是一種廣泛存在的現象,在許多頂域有其具體的定義和應用。
    在數據倉庫頂域中,元數據被定義爲:描述數據及其環境的數據。一般來說,它有兩方面的用途。首先,元數據能提供基於用戶的信息,如記錄數據項的業務描述信息的元數據能幫助用戶使用數據。其次,元數據能支持系統對數據的管理和維護,如關於數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。具體來說,在數據倉庫系統中,元數據機制主要支持以下五類系統管理功能:(1)描述哪些數據在數據倉庫中;(2)定義要進入數據倉庫中的數據和從數據倉庫中產生的數據;(3)記錄根據業務事件發生而隨之進行的數據抽取工作時間安排;(4)記錄並檢測系統數據一致性的要求和執行情況;(5)衡量數據質量。
在軟件構造頂域,元數據被定義爲:在程序中不是被加工的對象,而是通過其值的改變來改變程序的行爲的數據。它在運行過程中起着以解釋方式控制程序行爲的作用。在程序的不同位置配置不同值的元數據,就可以得到與原來等價的程序行爲。
在圖書館與信息界,元數據被定義爲:提供關於信息資源或數據的一種結構化的數據,是對信息資源的結構化的描述。其作用爲:描述信息資源或數據本身的特徵和屬性,規定數字化信息的組織,具有定位、發現、證明、評估,選擇等功能。
此外,元數據在地理界,生命科學界等頂域也有其相應的定義和應用,在此不一一闡述。
二 、 主要元數據格式介紹
    由於元數據的廣泛存在,導致元數據格式層出不窮,在此就圖書館和信息界的幾種主要元數據格式進行介紹。
1.藝術作品描述類目(CDWA):
     是描述藝術作品的結構化工具,主要應用於藝術作品,珍善本和其它三維作品,它的描述重點在於“可動”的對象及其圖像。它有27 個數據單元,每一單元還包括若干子單元,包括主題,記錄,管理等項目。
2.編碼文檔描述(EAD):
    主要用於描述檔案和手稿資源,並利用網絡檢索和獲取檔案手稿類信息資源。其高層元素主要有:頭標,前面事項,檔案描述。每一高層元素又包括多個小項以及若干細項。它能適應任何長度的目錄和記錄,並能描述在各種媒介上的所有類型的檔案。EAD體系由三部分組成:數據模型,SGML文件類型定義和檔案目錄。
3.VRA核心類目(VRA core):
 最初是爲在網絡環境下對藝術,建築等藝術類視覺資料的著錄而起草,以後逐漸擴大應用到非藝術類頂域,目前VRA核心類目格式由兩部分組成:
① 作品著錄類目:用於任何一種作品實體或某種視覺文獻所記載的原始作品(多爲三維作品)的著錄,包括作品類型,尺寸,主題等19個數據單元。
② 視覺文獻著錄類目:用於記載某種作品實體的視覺文獻的著錄,包括視覺文獻類型,視覺文獻格式等9個數據單元。
4.機讀目錄(MARC):
 它被廣泛用於圖書館書目記錄數據,是目前圖書館描述、存儲、交換、處理以及檢索信息的基礎。MARC記錄的總體結構有以下特點:可變格式可變長字段的記錄格式;採用目次方式;每條MARC記錄分三個區(頭標區,目次區,數據區)。
 MARC格式遵循ISO27091981規定,由以下幾個部分組成,如圖一所示。
          
    MARC爲適應網絡發展的需要,已經在原有的基礎上增加538字段(系統需求和存取註釋)、516字段(計算機文件類型或數據註釋)、256字段(計算機文件特徵)以及856字段(電子地址和存取)。同時,爲了促進MARC在網絡環境中得到進一步的應用,美國國會圖書館正在研究制定MARC的DTD(文獻類型定義),使得基於國際標準ISO2709格式的數據能自動轉換到基於ISO8879的SGML格式上,適用於各類網絡軟件和瀏覽器。
5.都柏林核心集(DC):
   DC元數據是在充分吸納了圖書情報界所具有編目、分類、文摘等經驗,同時在利用計算機、網絡的自動搜索、編目、索引、檢索等研究成果的基礎上發展起來的。它是描述、支持、發現、管理和檢索網絡資源的信息組織方式,其最大特點是數據結構簡單,信息提供者可直接編碼。
   DC有簡單DC和複雜DC之分。簡單DC指的是DC的15個核心元素:題名,主題等。與複雜的MARC格式相比,DC只有15個基本元素,較爲簡單,而且根據DC的可選擇原則,可以簡化著錄項目,只要確保最低限度的7個元素(題名、出版者、形式、類型、標記符、日期和主題)就可以了
    複雜DC是在簡單DC的基礎上引進修飾詞的概念,如體系修飾詞(SCHEME),語種修飾詞(LANG),子元素修飾詞(Subelement),進一步明確元數據的特性。特別是通過體系修飾詞,把MARC的優點和各種已有的分類法、主題詞表等控制語言吸收進去。
    DC可以使用HTML語言的META標籤(tag )的“NAME ”和“CONTENT”屬性進行描述,同時將每個單元都加了著錄標記(label),著錄時既可以使用HTML語言爲輸出結果的網絡產品形式,也保留了自己的著錄標識和系統。但是由於HTML文檔本身的結構不強,擴展能力差,描述內容的能力也較弱,因此不太可能成爲今後數字化項目應用中主要的內容管理工具。在應用中將會更多地採用基於RDF的應用方法。
三、 元數據攜帶工具RDF
    元數據的種類複雜且用途殊異,將來多種元數據共存共榮的局面已成爲共識,而元數據的互操作性要求在由不同的組織制定與管理且技術規範不盡相同的元數據環境下,能夠作到對用戶保持一致性的服務,也就是說對一個應用或用戶來說,能夠保證一個統一的數據界面,保證一致性與對用戶的透明。元數據的重用和各種元數據的互換已成爲元數據發展的趨勢。因此,一種可同時攜帶多種元數據來往於互聯網和WWW上的架構,成爲不可或缺的工具,資源描述框架(RDF)即籍此而生。
    RDF是一個能對結構化元數據進行編碼,交換及再利用的體系框架。它本身只有很少的語義定義元素,但通過對通常意義上的語義,語法和結構的支持,可使不同的用戶或團體在這一框架下定義他們自己的元數據元素,從而提供了各種不同的元數據體系之間的互操作性。RDF採用XML作爲交換和處理元數據的通用語法結構體系,提供了一種強有力的可轉換的句法模式。
RDF的核心定義比較簡單,它基於如下假設:任何一個可被標識的“資源”都可以被一些可選擇的“屬性”描述,每一個屬性的描述都有一個“值”。對此定義,可用如下3位元圖來描述:                          

屬性                                       
                                   (property)                               
                                                                  
                                    圖二
RDF 所提供的基於XML的結構與句法尤其適合描述語義定義較爲豐富的DC元數據,在這樣的模式下,語義、句法與結構得到了很好的整合。下面用基於RDF的DC修飾詞描述句法來描述如下一個假定事實:郭志紅是http://www.sjtu.edu.cn/mydoc.htm資源的插圖作者,他是上海交大B0033091班的學生,他的email是:[email protected]。可用下圖來進行具體描述:
                                                       vcard:fn
                             dc:creator                        vcard:email   
                                                          
                            dcq:creatorType                   vcard:org            

                                 圖三
具體源代碼爲:
< ?xml version=”1.0” encoding =”GB2312”? >
<rdf:RDF   xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
           xmlns:dc =http://purl.org/dc/eiements/1.0/
           xmlns:vcard=http://www.imc.org/vcard/3.0/>
           xmlns:dcq =” http://purl.org/dc/qualifiers/1.0/”>
<rdf:Description rdf:about=http://www.sjtu.edu.cn/mydoc.htm>
  <dc:creator>
      <rdf:Description>
         <vcard:fn>郭志紅</vcard:fn>
         <vcard:email>[email protected]</vcard:email>
         <vcard:org>上海交大B0033091班</vcard:org>
         <dcq:creatorType>Illustrator</dcq:creatorType>
    </rdf:Description>
  </dc:creator>
 </rdf:Description>
</rdf:RDF>
四、 數字化圖書館中元數據的內、外部系統及其設計原則
    元數據體系的外部系統是數字化圖書館外部的元數據環境,即各種獨立於具體系統的,被廣泛承認的,通用的元數據標準的總和。
   元數據體系的內部系統主要是數字化圖書館系統本身的元數據處理方法和體系結構,即元數據管理系統。它是整個數字化圖書館系統的重要組成部分,其基本功能是爲數字化圖書館系統的運行建立基礎。
   爲了實現數字化圖書館和外界信息環境的溝通,元數據內部系統和外部系統必須是同構的。這種同構關係實際是將外部元數據系統映射到數字化圖書館的內部體系中的方法,爲了建立同構關係,元數據管理系統的結構包括6個組成部分。(1)基準元數據系統。是指某個數字化圖書館標準的元數據系統。它的作用是:作爲基準元數據,組織標識數字化圖書館中的數字化信息資源;以標準形式描述用戶的查詢提問;爲各種網絡信息發掘工具提供數字化信息。(2)元數據字典。是一種用於各種元數據體系到系統基準元數據系統相互轉換的對照表,它描述了各種元數據的基本特徵,構建了各種元數據與基準元數據系統的對應關係。其基本作用是爲系統的轉換模塊提供轉換依據。(3)數據屬性集。是指數字化圖書館存儲數據的屬性總和。元數據管理系統可通過數據屬性集將數字化圖書館的數據結構和基準元數據相對照,保障它們之間的可互換性。(4)數字化信息資源集。它描述的對象是信息源。數字化圖書館系統可以通過信息源特徵集來確定個信息源所採用的元數據體系,將用基準元數據表達的查詢式轉換成各個信息源所採用的元數據表達式,從而決定各個信息源的檢索方法並解釋檢索結構。(5)轉換模塊。提供了實現各種元數據之間相互轉換、翻譯的方法。(6)維護模塊。可以對各種對照表進行添加、刪除、修改等動態管理,保證元數據管h系統的可擴展性和可維護性。
    由於元數據體系的基本作用是控制數字化圖書館系統和外界進行數據交換。因此,標準性,完備性和可擴展性應該成爲所有設計原則中最重要的內容。元數據體系設計的核心是基準元數據系統的確定。在選擇基準元數據系統時,應該選擇有權威機構或組織制訂的,被廣泛認可和使用的元數據方案。此外,元數據體系應該能夠解釋和兼容大多數數字化圖書館所涉及主題頂域中,獲得公認的元數據放案。且要求具有擴展的可能性。
五、 數字化圖書館中元數據方案實例
    在此,以上海圖書館和斯坦福大學圖書館爲例,介紹它們在數字化圖書館建設中各自所採納的元數據方案,以供借鑑。   
目前的上海數字圖書館綜合了七個資源庫,擁有數據近200GB。系統採用IBM Digital Library version 2.4作爲主要開發工具應用平臺,系統的元數據方案以Dublin Core作爲核心集,多種元數據方法並存,並以基於XML的以RDF爲基礎的資源描述體系將它們封裝在一起。其元數據方案的實施框架如圖四所示。
    該元數據方案保證了針對不同資源類型描述的元數據要求,也充分利用了圖書館原有的元數據資源(主要爲CNMARC記錄),同時以基於XML爲基礎的RDF描述體系也實現了開放、標準、統一的內容管理,使數字圖書館的資源建設能在相當長的時間內得到保護,也爲未來向新的體系與標準遷移提供了便利。當然,由於該系統採用的包括IBM DL在內的基於關係數據庫的系統不能很好地解決XML的存儲、管理與檢索機制,在將各種元數據裝載入IBM DL系統中之前,必須將其轉換爲統一的Dublin Core,這種轉換一方面會丟失很多信息,另一方面會造成歧義或者是語義概念上不恰當的伸縮,導致對用戶提供的檢索服務功能受到了限制。理想的狀態是將所有的元數據都裝入數字圖書館應用系統,將應實際需要而要進行的轉換放到系統之外,這樣就可以在滿足用戶統一檢索界面與服務的情況下,提供用戶更好的數據挖掘的服務及更多樣化的選擇可能。這也是上海圖書館元數據工作者今後的進一步工作目標。
   斯坦福大學數字化圖書館是一個分佈式的,異構的,基於代理的數字圖書館,其自動服務和收藏功能通過代理服務器來間接獲得。爲滿足元數據的可容性和內部操作性,它的元數據體系包括以下四個基本組成部分:屬性模型代理,屬性模型翻譯器,搜索代理的元數據設施,元數據包。其元數據體系結構如下圖所示。


其中,屬性模型是指自包含的屬性集,即諸如DublinCore, USMARC等元數據標識集。屬性模型代理包含了屬性集和爲首要對象定義的屬性,也允許包含屬性間的種種關係。屬性模型翻譯器將來自某個屬性集的屬性和屬性值映射到另一個屬性集中。搜索代理的元數據設施爲搜索代理的可訪問資源和搜索能力提供了結構化的描述。元數據包積聚了從其他三個組成部分中挑選出的元數據,以利於元數據的全局查詢和局部檢索。InfoBus是該數字化圖書館的基礎設施,它的核心是代理(即包裝器)。各種代理均被實現爲CORBA的分佈對象,可被遠程訪問。到目前爲止,斯坦福大學數字化圖書館已經爲Z39.50的Bib-1,DublinCore,Refer,Bib-tex,GILS,以及USMARC的子集實現了代理;可提供Bib-tex與Refer之間, Bib-tex與USMARC的子集之間的屬性轉換(但還不能實現屬性值類型之間的轉換);實現了元數據包的信息抽取模塊。
六、 結語
各種數字化項目,尤其是數字化圖書館,最終要成爲互聯網上閱讀瀏覽的網絡數據庫,各種格式的元數據在網絡數據庫間的導入和導出已成爲元數據工作者研究的熱點,不同格式的元數據之間的精確互換是亟待解決的問題。目前,業界對DC與 MARC之間的轉換研究得比較多,但至今還沒有取得任人滿意的效果。國外有研究成果表明:在合適的條件下,一個DC記錄有可能轉換成一個比較全面的MARC記錄,但該記錄可能不是一個有效的MARC記錄,因爲它丟失瞭如下一些強制字段:記錄標籤;001記錄標記符;100 通用處理數據;101 款目語種;200 題名和責任聲明。而構造“記錄標籤”和“通用處理數據”卻是其中最難解決的問題。

發佈了13 篇原創文章 · 獲贊 2 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章