信息組織 | 數字圖書館信息組織

1 數字圖書館的結構

1.1 數字圖書館的微觀結構一一數字對象的信息結構

數字對象

  1. 是數字資源庫中表示信息的基本邏輯單位,是數字圖書館系統操作和訪問的基本信息單位;
  2. 簡單的數字文件(如文本、圖像、視頻、聲音或音樂文件);
  3. 由一系列的底層的數字對象按照一定結構組合而成的複合對象(如多媒體圖書.課件等)

■ 數字對象的三個要素:
4. 數字對象的句柄(Handle ),常稱爲指針
5. 數字對象的元數據(Metadata )
6. 數字對象的數據體(是數字對象內容的載體 )

數字對象的信息結構決定着進一步的信息組織、處理和利用方式。

1.2 數字圖書館的中觀結構一一分佈式資源庫組織結構

■資源庫
  是多種資源的集合體,是一種資源與另一種資源 發生關聯的組織。

■資源庫組織主要關注以下關係:

  1. 元數據與數字對象的關係;
  2. 不同數字內容之間的關係
  3. 不同類型媒體之間的關係
  4. 多種存儲格式相互轉換和鏈接。

■分佈式資源庫
  分佈存放在不同結構的不同空間中,在此基礎上 ,再在各資源庫之間進行通信與操作上的互聯和數據內容之間的跨庫關聯,在總體上構成一個分佈式、異構數字圖書館系統。

■資源庫之間異構有多個層次:

  1. 系統平臺的異構
  2. 數據類型層面的異構
  3. 數據結構和索引結構的異構

1.3 數字圖書館的宏觀結構一一數字圖書館基本體系結構

■數字圖書館系統的邏輯結構

  1. 對象數據庫
  2. 元數據庫
  3. 數據加工子系統
  4. 査詢子系統
  5. 調度子系統

數字圖書館功能框架結構
在這裏插入圖片描述

■數據存儲層

  1. 數據存儲層負責數字化資源的保存:
    • 元數據層:資源發現的重要依據
    • 數字對象層:採用分佈式存儲,可分散在不回旳系紈;

■資源加工與管理層

  1. 一方面負責數字化資源的創建和獲取,包括對文獻資
源的數字化加工、標引與採購。
  2. 另一方面負責對數字資源進行組織、管理和維護。

■服務層

  爲各個應用環境提供服務支撐,包括文獻服務(資源
的發現和獲取)、參考諮詢服務、個性化服務和教學
科研輔助服務。



■用戶層
。



  負責系統與用戶之間的交互。用戶層集成了服務層提
供的專業應用服務接口和用戶統一認證和管理接口。

2 數字圖書館信息組織的特徵和原則

數字圖書館的特徵:

  1. 經採選和序化的數字化信息資源
  2. 分佈式資源建設和管理
  3. 網絡化信息存取
  4. 增值化信息服務

數字圖書館信息組織的原則

  1. 標準化原則
  2. 開放性原則
  3. 選擇性原則
  4. 多維非線性揭示原則
  5. 知識組織原則

3 數字圖書館資源的元數據組織

(一)元數據及其功能
■元數據
  是用來識別、描述和定位數字信息資源的數據,以確保數字信息資源能夠被計算機自動辨析、分解、 提取和分析歸納的一種框架或一套編碼體系。

■數字圖書館的元數據體系

  1. 是數字圖書館所採用的信息描述的方法,是整個數字圖書館系統的基礎。
  2. 是對資源進行組織的有效工具,其功能是對信息資源進行描述、定位、檢索、利用和管理。

元數據體系結構
3. 內容結構
■對元數據的構成元素及其定義標準進行描述;
4. 句法結構
■是定義元數據整體結構以及如何描述這種結構;
5. 語義結構
■是定義元數據元素的具體描述方法。

(二)元數據的類型劃分
依據元數據在數字圖書館中的功能,劃分爲:

  1. 描述性元數據
  2. 結構性元數據
  3. 管理性元數據

(三)都柏林核心元數據

  1. Dublin Core ,以下簡稱DC。
  2. 目的是希望建立一套精簡的,適合於數字資源的描述方法,使得資源發現和信息檢索變得更加迅速和有效。DC目前已形成相對固定的標準,由15個核心元素構成,分別從資源內容,知識產權,外部屬性三個方面對信息資源進行描述。
  3. DC具有簡單易用、可擴展性等特點,國際上一般以推薦以DC的15個元數據作爲核心元素,在此基 礎上作擴充。

元數據的侷限

  1. 元數據主要是爲人而設計的,但是語義缺乏明確的、形式化的定義,無法利用機器 的強大功能對元數據直接進行理解和處理。
  2. 元數據雖然提供了數字圖書館的語義基礎,但卻無法解決資源描述的異構性和語義性問題

基於RDF/XML的元數據標記應用
  ■ XML定義了元數據描述語法互操作的標準
  ■RDF ( Resource Description Framework ,資 源描述框架)是由W3C提出的一種用於描述網絡上的信息和資源的標記語言,專門用於描述Web資源的元數據,是一種人與機器都能理解的描述框架。RDF是一個處理元數據的XML應用,採用 XML語法來表述。

RDF的侷限

  1. RDF只定義了用於描述資源的通用數據模型 ,但它不是針對特定領域的,沒有爲任何領 域定義語義。
  2. RDF的語義表示能力非常有限,只提供了描述單個資源語義信息的能力,而沒有提供描述特定領域的語義的能力。

RDFS

  1. Resource Description Framework Schema ,資源描述框架模型,RDF的詞彙描述語言;
  2. RDFS通過提供一套命名和描述RDF中類和屬性的機制,實現以通用的數據模型描 述特定領域語義的能力。

■ RDFS數據模型

  1. RDF使用XML語法實現Web上的元數據的描述和交換;
  2. 採用URI地址唯一地表示Web資源,首先指定詞彙集的URI,再使用指定的詞彙集來描述資源;
  3. 然後通過RDF Schema來建立不同詞彙集之間的聯繫。

RDFS 的侷限

  1. RDFS僅限於能表達淺層次的語義關係,無法支持更精確的語義關係描述。
  2. 必須在RDF(S)基礎上擴展元數據的語義描述功能,定義更加複雜的概念結構,並具備一定的知識推理能力的描述方案。

4 數字圖書館資源的知識組織

4.1 數字圖書館的知識組織系統

(一)知識組織系統及其層次類型

■ 知識組織系統
  knowledge organization systems ,簡稱KOS ,是我們用來定義並組織表述真實世界物體的術語和符號的系統,在具體應用中我們往往將它們泛指爲語義工具。

■知識組織系統的層次
第一層次:詞彙列表(詞單)
第二層次:分類與大致歸類
第三層次:關聯組織

■知識組織系統的作用
第一層次的詞彙、詞單列表
  可以被視爲基礎知識類工具;

第二層次的分類聚類體系
  可以被看作是架構類知識組織工具,體現了領域專家對學科 知識的有序梳理,通過分類法與標題表對信息資源進行重組 排序,在知識組織中實現知識系統化架構及主題標引;

第三層次的敘詞表.本體等
可以被視爲關聯組織類工具,建立,揭示語義關係,體現知 識之間的關聯呈現,提供更爲多元的檢索入口,也爲機器理 解與推理提供了支持。

(二)知識組織系統描述轉換的目標
■數字圖書館KOS的改造和語義化轉換的目標:

  1. 將各類知識組織工具轉化爲機器可理解的語義化知識庫,使其具備和其它知識組織系統具行廣泛互操作與關聯的能力; 向數字圖書館內外的各類智能應用提供知識服務;
  2. 將數字圖書館的知識資源轉換爲關聯數據輸送到整個互聯網上,使得數字圖書館成爲語義Web的知識關聯樞紐。

(三)知識組織系統的描述轉換語言

  1. SKOS是RDF的一個應用,每一條陳述(statement) 都是一個RDF三元組。
  2. SKOS數據模型的實質是一套由RDF定義的詞彙集,採用該詞集能夠以一種機器可理解的方式表達詞彙的結構和概念,以供交換和重用。
  3. SKOS化的知識組織系統爲RDFS提供了更爲規範和精確的取值詞彙集 (value vocabularies),擴展了RDFS 的語義描述能力。

SKOS包括三個主要部分:
■ SKOS CoreV

  1. SKOS核心詞彙表,是一個表示概念體系基本結構和內容的模型
  2. SKOS核心詞表常用標籤表

■ SKOS Mapping
  用於描述概念間的映射
■ SKOS Extensions
  用於描述SKOS的特定應用

5 數字圖書館資源的整合技術與方法

5.1 系統層面的技術整合

■系統層面的技術整合:
  也稱平臺整合,是在檢索過程中,採用某種檢索機制,以檢索代理(Agent)的角色 來接受和處理用戶的檢索請求,爲用戶返回檢索結果時實現表面的資源整合。

■整合方法
1. 基於元搜索的聯邦檢索
  必須遵循一定的數據交換與互操作標準協議在異構數據庫之間進行數據交換與互操作;
■優點:

  1. 一站式檢索,唯一檢索入口;
  2. 檢索效率高且穩定性、即時性好。

■缺點:

  1. 檢索相關:對同時檢索資源的限制;檢索速度方面難以克 服的缺陷;檢索表現依賴於每一個目標資源和網絡表現;
  2. 檢索結果相關:査重和歸併;顯示和排序;這兩點皆由於 無法對不同目標資源的結果確定一個好的查重算法和一個 統一的顯示方式;而相關度排序的問題更爲複雜和棘手。
  3. 標準相關:缺乏目標資源的記錄結構;缺乏相關的標準檢 索協議,通常使用Z39.50 , API和XML網關,甚至通過 HTTP進行元數據抽取。

2. 基於OpenURL的鏈接整合服務
  統一資源定位器,即"開放鏈接“,是一種附帶有元數據信息和資源地址信息的"可運行的URL",是目前最爲 熱門的唯一標識符應用體系;

■鏈接整合的角色(要素):
  鏈接源(link source)今鏈接服務器(Link Server)今鏈 接目標(link target)
■鏈接整合運行機制

  1. 前提:參與鏈接整合的各個信息服務商(各數據庫) 必須遵循OpenURL標準協議;
  2. 運行:鏈接服務器(Link Server)解析信息提供源( Source )所傳送的要求,並向目標發送深度鏈接服務的請求,實現快捷定位並獲取所需的目標信息。

基於OpenURL鏈接整合的優點及發展前景
■優點:

  1. OpenURL協議具有可定製、可移植、開放特性; 基於OpenURL框架的鏈接服務是信息源外部的,獨立 於信息源;
  2. 有助實現鏈接的本地化,可以提供鏈接的擴展服務;
  3. 提供一個對不同文獻數據庫的通用管理入口;
  4. 通過標準的方式將不同的數據庫集成。

■發展前景:

  1. 在學術信息環境中獲得了廣泛的認可和支持,成爲數字 圖書館應用領域的熱門技術;
  2. 是下一代網絡級資源發現系統實現有效定位資源目標的關鍵技術之一:  SUMMON(360Link);Primo(SFX)

5.2 資源層面基於元數據的內容整合

■基於元數據的內容整合:
  是指通過抽取,映射等手段對分佈異構資源 的元數據/對象數據進行收集和聚合,安裝 在本地系統中提供統一的檢索和服務。
■三個發展階段

  1. 基於元數據轉換的互操作
  2. 基於開放元數據搜索和檢索的集成
  3. 基於海量元數據倉儲的內容整合

基於OAI-PMH元數據整合的優缺點
■優點:

  1. OAI-PMH的一個最大特點是簡單。它把原來廣大用戶和數據提供者要做的工作集中到了專業 的服務提供者一方,同時也大大減輕了對提供元數據的廣 大圖書館的技術要求。
  2. OAI-PMH從元數據的共享和互操作的層面上提供了一種 低成本的數字資源整合集成共享的解決方案。
    ■缺點:
      當OAI-PMH從Z39.50服務器(如聯合公共目錄系統)、 動態網頁、數據庫中抽取元數據,在此基礎上形成供自己 使用的本地OAI數據源時,但由於涉及元數據規範、格式 、數據庫接口等的加工、處理或轉換要相對複雜一些。

5.3 基於海量元數據倉儲的內容整合

  通過對海量的來自異構資源的元數據(包括部分對象數 據)通過抽取、映射、收割、導入等手段進行預收集, 並作規範化,豐富化處理,通過歸併並映射到一個標準的表達式進行預聚合,形成統一的元數據中心索引;通過單一但功能強大的搜索界,面向終端用戶提統一的檢索和服務。

5.4 基於知識關聯的內容整合

  1. 知識關聯是深層次的內容整合;
  2. 知識鏈接是基於知識關聯的信息組織和資源 內容整合方式;
  3. 引文數據庫就是基於引文之間的相互印證關係建立文獻之間的內容整合關聯網絡。
  4. 是數字圖書館面向知識服務創新的資源整合模式和要求,也是數字圖書館資源整合的終 級目標。

5.5 關於資源整合的總結

  每一種資源整合方式並不是絕然獨立的,也並沒 有低級和高級之分,在實際應用中是相互互補、滲透和融合的。
■資源整合在整合內容類型的覆蓋面上也不斷得到加強:

  1. 圖書館購買的數字資源庫的跨庫集成檢索——>
  2. 支持整個圖書館全部館藏信息資源(包括印刷.電子 和數字)的集成整合檢索、發現與獲取——>
  3. 基於全網域索引的資源發現(印刷版資源;自建的本地數字內容,比如機構庫和數字特藏;訂購的遠程電子資源;其他諸如博客等微信息資源)

6 參考資料

《信息組織》第三版 ,戴維民主編,高等教育出版社,2014年
《信息組織》第九章 PPT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章