【829】【01信息檢索基礎】【理解】

【一】信息

在這裏插入圖片描述

信息的含義

  • 廣義的信息指自然界和一切人類活動所傳達出來的信號和信息,是事物表現的一種普遍形式。
  • 從本質上說,信息是事物本身(顯示其存在方式或運動狀態)的屬性,是客觀存在的現象。
  • 狹義的信息指經過蒐集、記錄、處理和存儲的可供檢索的文獻、數據和事實。它是人類對客觀事物的認識,是實踐經驗的總結,是認識的結果,是我們檢索的對象。

信息的主要特徵

信息的特徵是指信息區別於其他事物的屬性
存儲和傳遞是信息的兩種基本狀態

①可存儲性:使信息與物質媒介(可依附、可傳遞、可存儲、普遍性)構成一種依附性很強的、相對穩定的關係

②可傳遞性:信息的傳遞有空間傳遞和時間傳遞等不同類型,需要依賴於一定的物質載體,具有動態性和方向性的特徵。

③可轉換性:表現在兩個層面:一是信息在一定的條件下可以轉化成物質、能量、金錢、效益等其他東西,這種轉換主要依靠人類對信息的正確利用;二是信息可以從一種形態轉換爲另一種形態,自然信息轉換爲計算機代碼(可轉換、可處理、可共享)。

④可處理性:信息通過分類、整序、分析、綜合、壓縮、擴充等加工處理

⑤可共享性:表現爲同一種信息可以同時被許多人共同享有,這是信息不同於物質和能量的一個非常重要的特徵。信息交換的雙方不會失去原有的信息,而且還會增加新的信息。

⑥可識別性:人類可以通過自身的器官去直接感覺和知覺信息

⑦依附性:信息在其存儲和傳遞過程中必須依附於一定的物質載體,信息與物質載體構成一個整體

⑧普遍性:物質普遍存在的屬性導致了信息的普遍性

信息的功能(信息的功效和作用)

在這裏插入圖片描述
物質和能源分別爲生產提供材料和動力,信息則爲生產提供智力

(1)傳承人類文明,推進社會發展

(2)提供決策依據,提高決策效益:信息能夠幫助人們減少應對決策時的不確定性和風險,降低由於缺乏足夠準備而造成的損失。

(3)保障有效控制,保證系統秩序:控制是保障各個社會組織有利地和高效地獲得和利用其他資源的監控及實施調節行爲的過程。

(4)發揮參考價值,推動知識創新:信息是知識的源泉和生產發展的催化劑

信息的類型(信息的分類)

在這裏插入圖片描述

基於廣義信息

(1)依據信息的產生(社會和自然)
社會信息指人類在社會實踐活動中,爲生存、生產和社會發展而產生、處理和利用的信息
自然信息是自然界中的事物變化、特徵以及事物之間的內在關係的反映。

(2)依據信息的運動狀態(自在、自爲和再生)
自在信息指沒有進入人的認識領域,未把握自然信息。
自爲信息指人感知的信息,是已被把握的自在信息
再生信息指主體對自爲加工製作後向外界輸出的信息,是主體反映客體而形成的觀念性信息和思維信息

基於狹義信息

(1)按照信息的媒體類型,(印刷型、縮微型、視聽型和機讀型四種)

  • 印刷型信息是以紙張爲媒體。紙質文獻具有便攜、閱讀方便、可長期保存和反覆使用等優勢。
  • 縮微型信息是以感光材料爲媒體,以縮微照相爲記錄手段的信息。縮微複製品(縮微膠捲、縮微平片、縮微卡片)。其信息存儲密度高,文獻體積小,便於收藏、保存和傳遞,能安全儲存資料。必須藉助縮微閱讀機或其他輔助設備才能閱讀,不便攜帶,保存條件要求嚴格,難於普及。
  • 視聽型信息,也稱聲像型信息,指以磁性材料或感光材料爲存儲介質,藉助特殊的機械設備,直接記錄聲音和圖像,並通過設備存儲和播放的信息。其優點是聲情並茂、形象逼真、直觀性強、動靜交替等。但是需要藉助一定的設備才能使用。
  • 機讀型信息指通過編碼和程序設計,以機器語言存儲在磁盤、光盤等介質上,並依賴計算機輸出的信息。它具有存儲量大、查找快速方便的特點。

(2)按照信息的加工處理程度(零次、一次、二次和三次)

零次信息指在人際交流口頭攜帶和傳播的信息

  • 包括交談、聚會、參觀以及人際通過其他直接接觸方式形成的信息。
  • 零次信息產生於交流的過程,具有選擇性和針對性較強、交流速度快、反饋及時等特點。
  • 由於零次信息的出現和傳遞都帶有很大的偶然性,而且未經記錄和加工,不便於積累和檢驗,因而增加了獲取難度

一次信息未經過加工或粗加工的原始信息資源,也稱原始信息,是人們在社會實踐活動中直接產生或得到的各種數據、概念、知識、經驗及總結。

  • 一次信息數量龐雜而分散,主要包括著作、報紙、期刊、會議資料、研究報告、政府出版物、專利說明書、產品樣本、標準文獻、學位論文等等。
  • 一次信息價值高、數量大,是最基本的信息,對科學研究和社會實踐具有重要的參考和使用價值。

二次信息是以一次信息爲依據進行加工整理而形成的信息,是對一次信息濃縮或有序化的產物

  • 包括目錄、文摘、索引等。
  • 二次信息具有傳遞信息、報道信息的功能,更重要的是爲查找一次信息提供線索。
  • 它具有系統性、工具性等特點。

三次信息是在對零次信息、一次信息、二次信息進行分析研究、加工提煉和概括綜合而形成的信息。

  • 具體包括綜述、述評、進展報告、學科年度總結等。其中,綜述和述評是三次信息最基本的兩種形式。
  • 具有信息量大、綜合性強和系統性好等特點。

(3)依據信息內容(經濟、科技、政務、文化、教育、軍事)

經濟信息包含一切經濟活動中產生的信息。
科技信息指與科學技術有關的信息。
政務信息指一切產生於政府活動中的信息。
文化信息主要來自文化領域,包括文學、藝術、出版等。
教育信息從教育活動中形成
軍事信息指與國防軍事相關的信息。

(4)按信息的出版發行特點(正式和非正式)
正式出版信息指公開出版發行的信息,主要包括圖書、期刊、報紙等。

第一,圖書。據聯合國教科文組織的規定,49頁以上裝訂成冊的印刷品稱爲圖書。凡正式出版的圖書均有國際標準書號ISBN,由10位數字分爲四個部分組成。圖書的內容相對比較成熟、全面,是一種重要的信息。

第二,期刊。又名雜誌,是一種有固定的名稱,統一的版面形式,按期出版,標有刊期等序號的連續出版物。正式出版的期刊均有國際連續出版物標準刊號ISSN,由8位數字分兩個部分組成。期刊具有數量大、出版及時、內容新穎等顯著特點,對於科學研究具有重要的參考價值。

第三,報紙。屬於連續出版物,具有出版週期短、時效性強的特點。報紙類的信息非常豐富,涉及經濟、文化、社會、生活各個方面,能夠動態地反映出最新的信息。

非正式出版信息,也稱特種文獻或灰色文獻,指不經過公開出版物流通渠道、不大量發行、爲一部分用戶使用的內部文獻信息資料。具有信息量大、形式多樣、載體不固定等特點。包括會議文獻、學位論文、政府出版物、研究報告、檔案、專利文獻、標準文獻等。

網絡環境下的信息變化

在這裏插入圖片描述
(1)互聯網引發了信息新的出版形式——網絡出版,形成了新型的網絡信息資源

(2)互聯網使人類傳統的信息交流方式發生了根本性的變化:具體表現爲兩個方面。一方面,互聯網的信息交流呈現出明顯的開放性和廣泛性。另一方面,信息交流方式顯現出較強的交互性和實時性

(3)互聯網推動了信息技術的發展:互聯網使計算機信息處理技術(數字技術爲核心)得到了長足的發展。對多重信息形式進行綜合處理的多媒體技術。

網絡環境下信息的新特點

(1)信息類型多樣化:印刷型信息、磁光介質型信息和網絡型信息
(2)信息的數量和內容都得到了極大的豐富:信息發佈的自由性和任意性導致了網絡信息的激增,現代信息技術爲信息內容的展現提供了堅實的技術支持,信息內容更加深入和豐富。
(3)信息在分佈上呈現出明顯的分散性:紙本文獻信息主要集中在圖書館、情報所、檔案館、書店、出版社等場所。網絡信息資源無論在地理上還是在組織形式上都呈現出分散分佈的特點,互聯網中任何一個資源服務器上都存儲有提供給用戶利用的信息。
(4)信息共享程度提高:信息網絡給人類帶來了方便的信息獲取渠道信息資源更大程度的共享,爲人類提供了一個全新的信息環境。

【二】信息檢索

在這裏插入圖片描述

  • 從廣義的角度講,信息檢索包含信息存儲和信息獲取兩個過程。

  • 信息存儲指通過對大量無序信息的選擇和收集、著錄和標引等方法,建成各種各樣的信息檢索工具或信息檢索系統,使之成爲有序化信息集合的過程

  • 獲取是存儲的逆過程,其實質是根據特定的需求,運用已組織好的檢索系統,將特定的信息查找出來。

  • 存儲是獲取的前提和基礎,沒有存儲就沒有獲取,而獲取是存儲的目的,二者密切聯繫,互爲依存,缺一不可。

  • 狹義的信息檢索是指廣義的信息檢索的後一個過程,即信息獲取的過程。具體來說,指通過一定的方法,從已存儲的信息中檢索出與用戶提問相關的文獻、數據和事實的過程,即根據用戶的特定要求查找所需信息的過程

信息檢索的原理

信息檢索的基本原理可以概括爲:對信息資源集合與信息需求集合的匹配與選擇
(1)信息資源集合:信息資源集合是指有關某一領域的、經選擇性採集和組織加工的信息集合體。爲了保障信息檢索的快速與高效,需要對信息資源集合進行某種形式化的加工,形成它們的特徵化表示,即對它們進行分析與標引,讓原來隱含的、不易識別的特徵顯性化,並獲得相應的標識。將這些被分析、提取出來的特徵及其標識進行存儲,便構成了索引庫,成爲組織和查找信息資源的依據和標準。
(2)信息需求集合:衆多用戶不同形態的信息需求的彙集,形成了信息需求集合。用戶信息需求的產生及其滿足,是實施信息檢索行爲的前提與基礎,更是實施信息檢索行爲的目的所在。因此,需要對用戶提出的信息需求進行分析,提取出主題概念或其他屬性,並利用與信息資源集合相同的標識系統(即檢索語言)來表示需求中所包含的概念和屬性,從而得到用戶需求的特徵化表示結構——提問式。
(3)匹配與選擇:爲了從信息資源集合中快速獲取用戶所需要的信息與知識,要求信息檢索提供一種“匹配”機制。其主要功能在於:能夠把信息需求集合與信息資源集合依據某種相似性標準進行比較與判斷,進而選擇出符合用戶需要的信息。

信息檢索原理是將特定的信息需求存儲在檢索系統中的信息標識進行異同的比較與匹配,選取兩者相符或部分相符的信息予以輸出

檢索系統對所要存儲的信息,按照其外部特徵和內容特徵進行描述並賦予特徵標識,然後存入系統;檢索時,將所需信息的特徵標識所存信息的特徵標識進行比較。凡是兩邊標識一致的,就將具有這些標識的信息從檢索系統中輸出。

在這裏插入圖片描述

信息檢索的類型

(1)按檢索對象和內容劃分(文獻、數據、事實)
文獻檢索信息檢索的主體部分,以特定的文獻爲檢索對象(全文、文摘、題錄)。是一種相關性檢索,它不直接回答用戶所提技術問題的本身,只提供有關的文獻供參考。
數據檢索:以特定的數據爲檢索對象(統計數字、工程數據、圖表、計算公式、化學結構式)。是一種確定性檢索,它能夠提供確切的數據,直接回答用戶所提問題的本身。
事實檢索:以特定的事實爲檢索對象,如有關某一事件發生的時間、地點、人物和過程等。是一種確定性檢索,一般能夠直接提供用戶所需的確定的事實。但有時需要對所得到的事實進行必要的分析和推理,才能得到最終的答案。

新的三分方法(文本、數值、音頻與視頻)
文本檢索。它是指以各種自然語言符號系統所表示的信息作爲主要檢索對象的信息檢索活動。
數值檢索。主要針對數值型數據的查詢而發展起來的一類較有特色的信息檢索活動。在此基礎上提供一定的數據運算與推導能力,以及製表、繪圖功能。
音頻與視頻檢索。主要針對各種數字化音頻與視頻信息而進行查詢的一類新型的信息檢索操作。

(2)按檢索系統中信息的組織方式劃分(全文、多媒體、超媒體)

①全文檢索。對檢索系統中存儲的整篇文章乃至整本書按照自己的需要獲取有關的章、段、句、節等信息,還可以進行各種頻率統計和內容分析。

②多媒體檢索。查找含有特定信息的多媒體文獻的檢索,其結果是以多媒體形式反映特定信息的文獻或片段,如圖形、圖像、聲音、動畫、影片等。

③超媒體檢索。包括對超文本和多媒體進行的檢索。系統中存儲的對象不僅有文本,還有圖形、圖像、聲音、視頻等多媒體信息。這些信息在組織結構上以超級鏈接的方式存在,因而檢索的結果是邏輯連接鏈

(3)按檢索要求劃分(強相關、弱相關)
①強相關檢索。強調的是查準率
②弱相關檢索。強調的是查全率查全率與查準率往往是成反比的

(4)按檢索性質劃分(定期、回溯)
①定期檢索。又稱爲SDI檢索,是查找有關特定主題最新信息的檢索。
②回溯檢索。也稱爲追溯檢索,是查找一段時期內有關特定主題信息的檢索。

(5)按檢索方式劃分(手工、機械、計算機)
①手工檢索。是以手工方式、利用印刷型工具書查找文獻信息的過程

②機械信息檢索:機械信息檢索系統是各種機械裝置進行信息檢索的機械系統,是手工檢索向現代信息檢索的過渡階段。
主要包括兩種基本類型:機電信息檢索系統光電信息檢索系統。

③計算機檢索:是通過計算機及網絡設備,利用光、磁等媒介存儲檢索文獻信息的過程。按信息組織方式的不同,計算機檢索分爲文本檢索、超文本檢索和超媒體檢索

信息檢索的意義/作用

在這裏插入圖片描述
信息檢索是有效獲取人類智力資源的重要手段,是連接信息生產者和信息需求者的通道和接口。

其主要作用表現在以下方面
(1)信息檢索是有效利用信息資源、實現其最大價值的科學方法
包括檢索策略的制定、檢索工具的選擇、檢索手段的選擇等

(2)信息檢索是再學習的工具,是獲取知識的有效途徑
信息檢索已成爲人們獲取知識、提高自我的最重要最普遍的形式。人們通過各種途徑獲取信息,完成知識更新,適應社會的發展,而信息檢索正是人們獲取知識的有效途徑。
(3)信息檢索能有效地提高科研工作的效率,節省人力物力及時間

信息檢索的歷程

信息檢索的發展與人們信息需求的增長以及現代信息技術的進程緊密相關

(1)手工檢索:手工檢索直接發源於圖書館的參考諮詢工作和文獻索引工作。紙本工具書是這一時期信息檢索的主要工具。
(2)計算機檢索階段:美國海軍兵器中心首先在IBM701型電子計算機上成功建立了世界第一個計算機文獻檢索系統,標誌着人類開始步入利用計算機進行信息檢索的新的歷史時期。計算機檢索經歷了脫機檢索、聯機檢索、光盤檢索和網絡檢索四個階段。

【三】信息檢索系統

信息檢索系統的含義及工作原理

信息檢索系統是指根據特定的信息需求而建立起來的一種有關信息蒐集、加工、存儲和檢索的程序化系統,其主要目的是爲人們提供信息檢索服務

信息檢索系統有多重形式,如工具書、數據庫或搜索引擎等。

信息檢索系統包括信息的存儲和獲取兩個部分,分別對應信息的輸入和輸出過程。
在這裏插入圖片描述
信息檢索系統的輸入端是針對信息,使信息能夠易於識別和理解,便於回答用戶的各種提問。
信息檢索系統的輸出端是針對用戶的提問,用戶自己直接對信息檢索系統進行提問,編制檢索策略。

信息檢索系統的構成

在這裏插入圖片描述
信息檢索系統具有對信息的輸入功能、存儲功能、處理功能、輸出功能及控制功能

信息選擇子系統:蒐集相關的信息資源,爲系統提供數據來源
信息索引子系統:根據具體的詞表和名詞規範,來選擇準確的信息標識
詞表管理子系統:輸出各種形式的詞彙數據或詞表產品(從個別詞目、詞間關係、詞頻數據到整部詞表)。
檢索子系統:承擔接收用戶提問、提問校驗和進行檢索等功能。
用戶同系統之間交互子系統:與用戶進行交流,以便真正明確用戶的真實信息需求,明確檢索提問,並準確表述等功能。
匹配子系統:將信息標識檢索提問進行相符性比較的子系統。

信息檢索系統的分類(手工檢索系統、計算機)

在這裏插入圖片描述
①手工檢索系統:是以印刷型檢索工具爲基礎的檢索系統,它可以直接進行利用,不需要依賴任何計算機或其他設備。

手工檢索系統主要是經過大腦的判斷來實施和完成檢索,面對的是印刷型載體,符合人們長期以來形成的閱讀習慣,而且,可以根據需要及時調整檢索策略,達到滿意的效果。

但是手工檢索系統收錄的範圍有限,更新速度慢,檢索效率遠不及計算機檢索系統

  • 常用的手工檢索系統主要有書本式的手工檢索系統,以圖書、期刊、附錄等形式出版的各種檢索工具書和檢索刊物,如目錄、索引、文摘、百科全書、年鑑和手冊等等;
  • 卡片式的手工檢索系統,以卡片的形式出現的檢索系統,包括圖書館的卡片式目錄等,如一般的圖書館都設有書名目錄、著者目錄、分類目錄和主題目錄等。

在這裏插入圖片描述
②計算機檢索系統:指依賴於計算機進行信息檢索的系統,主要由三個部分構成,即硬件部分、軟件部分和信息數據庫

硬件以計算機爲中心的一系列機器設備。
軟件又稱計算機程序,是指揮和控制計算機各部分協調工作並完成各項功能的程序和各種數據。
數據庫是依照某種數據模型組織起來並存放於計算機存儲設備中的數據集合,是計算機信息檢索系統最重要的組成部分。
對用戶而言,計算機檢索系統主要是數據庫的使用。國際上一般把數據庫分爲參考數據庫和源數據庫兩種。

  • 參考數據庫(Reference Databases)是指爲用戶提供信息線索的數據庫(書目數據庫和指南數據庫)

  • 書目數據庫/二次信息數據庫。書目數據庫中的數據來源於各種不同的一次信息,是經過加工和提煉的數據。包含文摘、目錄、題錄等書目數據

  • 在聯機檢索和光盤檢索中,有許多書目數據庫,可以滿足用戶回溯檢索和定題檢索的需要。

  • 指南數據庫。是有關機構、人物等相關信息的簡要描述。包括各種機構名錄數據庫、人物傳記數據庫、產品信息數據庫、軟件數據庫、技術標準數據庫、基金數據庫等。

  • 源數據庫(Soure Databases)指能直接提供原始資料或具體數據的數據庫。

  • 包括數值數據庫、文本—數值數據庫、全文數據庫、術語數據庫、圖像數據庫和多媒體數據庫等。

目前,計算機檢索系統是檢索系統的主流,主要包括光盤檢索系統、聯機檢索系統和網絡檢索系統。

【四】信息檢索方法(直接瀏覽、常用、追溯和綜合法)

信息檢索的效率與具體的信息檢索方法有很大的關係

(1)直接瀏覽法:也稱直接查找法,指檢索者不依靠任何檢索工具或檢索系統,從本專業最新核心期刊或其它文獻中直接閱讀原文或瀏覽最新目次而獲取文獻的方法。

直接瀏覽則可以及時獲得最新文獻。
但利用這種方法查找的信息不全面,不繫統且侷限性較大。

(2)常用法:指利用檢索系統來查找信息的方法。常用法包括順查法、倒查法和抽查法

  • 順查,就是由遠及近的順時間查找。利用順查法,一般需要了解檢索課題的背景和發生簡況,從而選擇比較適宜的檢索工具及檢索系統,從問題產生的時間開始查起,直到最新的文獻信息。這種方法查全率較高
  • 倒查,就是由近及遠地逆時間查找。倒查法的重點是放在近期信息資源上,檢索效率較高。但不如順查法查全率高,對檢索課題的來龍去脈不易掌握。寫作論文做資料準備時常採用這種辦法。
  • 抽查,即抽取其中某段時間查找。抽查法關注有關課題的文獻信息最可能出現或最多出現的時間段。用這種方法能獲得相對集中、具有代表性且能反映該課題發展水平的文獻信息

(3)追溯法:指從已有的文獻信息後所列的參考文獻入手,逐一追查原文,從這些新查到的原文後面所附的參考文獻再逐一追查,不斷擴大檢索範圍的檢索方法。

  • 其優點是在沒有檢索工具或檢索工具不齊全的情況下,藉助此種方法,也可以查到一批有關的文獻。
  • 其缺點是原文作者引用的參考文獻是有限的,不可能列出全部有關文獻,而且有的引用文獻又與原文關係較小或較遠,參考價值不大。單獨使用這種方法,還是存在一定的侷限性。

美國的《科學引文索引 就是按照這一原理而編制的一種檢索工具。比如,它可以從作者途徑去檢索引用該作者著作的有關文獻,它不僅反映出某個作者歷來發表了哪些文獻,而且也反映出其他作者引用該文獻從而發表新的著作的情況。它揭示了科技文獻中引用與被引用的客觀狀況

(4)綜合法:也稱分段查找法、循環法或交替法。先利用檢索工具查出一定時期內的一批有用的文獻,然後依據這些文獻後所附的參考文獻,利用追溯法查出前一時期的文獻,如此分期分段地交替使用常用法和追溯法兩種查找方法,直到滿足要求爲止。這種方法兼有上述兩種方法的優點,可以查得全面而準確的信息,適合於查閱那些過去文獻量較小的專業資料,並可彌補因檢索工具不全而造成的漏檢,檢索效果較好。

在這裏插入圖片描述

【五】信息檢索效果

衡量了檢索結果對用戶需求的滿足程度,是檢索系統性能的直接反映。

信息檢索效果評價是指運用科學的方法,按照設定的指標體系,對信息檢索效果進行評價的過程
信息檢索效果評價的核心問題是建立一套切實可行的評價指標
在這裏插入圖片描述
目前,主要從三個方面進行評價:
檢索結果有效性評價:主要以查全率和查準率爲評價標準;
檢索系統實用性的評價:包括系統對用戶是否需要,是否實用,有多大的實用效果,即檢索的社會效果的評價,需要應用社會學方法;
檢索費用—效率評價:即檢索的經濟效果的評價,包括檢索系統完成檢索服務的成本及時間消耗,需要應用經濟學方法。

美國著名情報學家蘭卡斯特提出,用戶可以從質量、費用和時間三方面來評價檢索系統。
質量標準主要通過數據庫覆蓋範圍、查全率、查準率、數據的完整性和準確性來反映。
費用標準即檢索費用,是指用戶爲檢索課題所投入的費用。
時間標準是指花費時間,包括檢索準備時間、檢索過程時間、獲取文獻時間等。

其中,查全率和查準率是判定檢索效果的主要標準

評價信息效果的指標

據美國學者克萊弗登的研究,評價信息檢索效果的指標主要有六個:收錄範圍、查全率、查準率、響應時間、用戶負擔和輸出形式

(1)查全率和查準率
查全率和查準率現已成爲評價檢索效果最常用的兩項關鍵指標。確定查全率和查準率最常用的方法是有名的2×2表。2×2表反映了檢索系統在某一次檢索時所得到的結果狀況。
①查全率

反映出信息檢索系統檢出相關文獻信息的能力。

查全率 = [檢出相關文獻信息量/檢索系統中相關文獻信息總量]×100% = [ a /(a + c)]×100%

②查準率

它反映出信息檢索系統的精確度,說明系統排除干擾,減少噪聲的能力。

查準率 = [檢出相關文獻信息量/檢出文獻信息總量]×100% = [ a /(a + b)]×100%

③查全率和查準率的侷限性:首先,在計算查全率時,一個檢索系統中總共有多少相關文獻(a + c)難以確切計算,而只能是大概估算;其次,在計算查準率時,用戶對文獻的相關性估計與系統的相關性判斷不一定是完全吻合的,而且,不同的用戶對相關文獻的認識也可能不一致,存在着太多的主觀成分和一些模糊概念。因此,用上述方法求得的查全率與查準率並不是絕對的,而只能是相對近似地描述檢索效果。

④查全率與查準率的關係:傳統的情報檢索理論認爲,查全率與查準率具有互逆相關關係,如果提高檢索的查準率,就會降低檢索的查全率。目前,一些學者對查全率和查準率的關係進行了深入研究,提出這兩個指標之間不僅存在互逆關係,而且還可以存在互順關係。
查全率與查準率之間的關係與檢索提問式的結構有關,不同的檢索條件下,兩者之間將呈現不同的關係。

(2)誤檢率和漏檢率

誤檢率 = [誤檢文獻信息量/檢出文獻信息總量]×100% = [ b /(a + b)]×100%

漏檢率 = [漏檢相關文獻信息量/檢索系統中相關文獻信息總量]×100% = [ c /(a + c)]×100%

(3)響應時間
響應時間指在一次檢索過程中,用戶從開始向信息檢索系統提問到系統輸出檢索結果的全部時間。響應時間越短,查全率和查準率越高,那麼信息檢索的效果就越好。

(4)其他與檢索效果相關的指標
收錄範圍又稱數據覆蓋率,用以揭示數據庫的涵蓋範圍。

輸出形式是系統檢索出文獻信息的展示形式,可能是文獻號、題錄、文摘或全文等。輸出的信息越多且便於瀏覽,用戶越容易做出相關性判斷。

系統的易用性也稱可存取性,反映了信息檢索系統的易用程度。

用戶負擔是用戶在檢索過程中所消耗的物力、財力乃至精力的總和。結果的重複鏈接率指檢索結果中內容重複的結果數佔全部檢索結果數的比例。死鏈接率指檢索結果中死鏈接的結果數佔全部檢索結果數的比例。

影響信息檢索效果的因素

在這裏插入圖片描述

(1)標引的質量:信息標引的正確性對信息檢索的查全率和查準率有着直接影響。

正確的標引可以使同一主題的信息準確而全面地被檢索出來。標引誤差主要來自主題分析誤差、標引深度誤差(查全率)等。

(2)檢索語言的性能:檢索語言是將信息標引和檢索提問聯繫起來的重要橋樑,是溝通信息存儲和信息檢索的紐帶,對於特定信息需求和信息檢索系統中信息集合的準確匹配具有直接的影響。

檢索語言用於標引信息內容及其外表特徵,可以對內容相同及相關信息加以集中或者揭示其相關性;
將信息的存儲集中化、系統化、組織化,便於檢索者按照一定的排列次序進行有序化檢索;
便於將標引用語和檢索用語進行相符性比較,保證不同檢索人員表述相同信息內容的一致性,以及檢索人員與標引人員對相同信息內容表述的一致性。

(3)檢索途徑的數量:也稱檢索入口,主要依據信息的內容特徵和外部特徵來確定。

檢索信息內容特徵的有分類、主題和全文途徑,檢索信息外部特徵的有題名、著者、文獻編號途徑等

該系統能夠提供的檢索途徑越多,越便於檢索人員對信息的查找和獲取。

(4)檢索策略的優劣:檢索策略是進行檢索的規劃和方案,是影響檢索效果的重要因素。

(5)檢索人員的素質:檢索人員應該具備一定的信息檢索知識,能夠正確地分析檢索課題,準確地表達信息需求,掌握信息檢索的基本方法,瞭解計算機操作的基礎知識,熟悉有關的信息檢索工具和檢索系統。

信息檢索途徑

信息檢索途徑是信息檢索系統和檢索工具所提供的檢索入口。常用的檢索途徑包括分類途徑、主題詞/關鍵詞途徑、題名途徑、代碼途徑、任意詞途徑、時間途徑、出處途徑等。
(1)分類途徑:是按文獻內容的學科分類體系查找文獻的途徑。它是以分類語言編制的檢索系統所提供的一種文獻查詢方式。

分類目錄和分類索引是檢索系統常用的檢索途徑。

(2)主題詞/關鍵詞途徑:主題詞及其派生出的關鍵詞爲標識查找文獻的途徑。

主題目錄和主題索引一般是手工檢索系統提供的輔助檢索途徑。

(3)題名途徑:也稱書名途徑、篇名途徑。如果知道文獻的題名,即可通過題名途徑查到所需文獻。

(4)著者途徑:著者目錄和著者索引是檢索系統常用的檢索途徑,如圖書館的卡片著者目錄。

(5)代碼途徑:專用代號查找文獻的途徑。(國際標準書號(ISBN),國際連續出版物號(ISSN)以及專利號、合同號)International Standard Book Number

(6)出處途徑:輸入原文獻的刊載處,如報刊名、出版單位名,可檢索到該刊載處出版、發表的有關文獻。

(7)時間途徑:是以文獻的時間範圍查找文獻的途徑。一般和其他檢索途徑配合使用,不單獨使用。

(8)任意詞途徑:也稱自由詞途徑。它是以自然語言編制的全文檢索系統所提供的一種文獻查詢方式。輸入字、字符、數字、詞或詞組等任意字或詞,可檢出所有在任一處出現該字、字符、數字、詞或詞組的文獻。

信息檢索的模型

不同信息檢索系統獲取信息的方式與途徑不同,但它們的基本原理是相同的:即檢索系統對用戶信息需求與系統存儲的信息資源所進行的匹配。

檢索模型,就是對信息檢索任務的數學抽象
信息集、用戶提問集、信息集與用戶提問集的相似性匹配是信息檢索模型的三要素。

信息檢索模型的類型主要有集合論模型、代數論模型、概率論模型等。

集合論模型、代數論模型和概率論模型的一個共同點是:它們都建立在對信息內容特徵的標引與匹配上。下面介紹幾種主要的信息檢索模型:

(1)布爾邏輯檢索模型(BRM):採通過對文獻標識與提問式的邏輯運算來檢索文獻。該模型具有邏輯運算符較少、提問式構造簡單且易修改等優點

(2)向量空間檢索模型(VSM):既有布爾檢索模型的簡介形式化特點,又有有效的匹配算法設計以及合理的結果排序處理方式,在文本檢索、文本分類、文本過濾等領域都有典型的應用。

(3)概率檢索模型(簡稱PRM):主要研究表示文檔的隨機向量在相關文檔集和無關文檔集中的概率分佈。概率模型具有一種內在的相關反饋機制,它把檢索處理過程看做是一個不斷逼近並最終確認命中文檔集合特徵的過程

(4)模糊檢索模型(FRM):基於模糊集合理論,其出發點是用“隸屬函數”的概念來描述差異的中間過渡,並通過隸屬函數對經典集合論加以推廣。模糊檢索模型與經典布爾模型關係密切,它基本保留了布爾檢索功能,但更爲靈活,對那些既想利用布爾檢索長處、又想避免其二值相關性判斷侷限性的人們來說,能夠較好地滿足需求。

信息素養與信息檢索

(1)信息素養的概念:信息素養是指個體成員有目的地蒐集、選擇、整理、加工、評價與利用信息的過程中所具備的一種複合品質。

信息素養包含兩個核心能力,即信息意識和信息獲取

所謂信息意識,是對信息知識的價值、功能和作用的認識和理解,是自覺地獲取有關信息知識、並加以及時分析與利用的內在動力。

信息能力即人們獲取信息、處理信息、利用信息和創造信息的能力,是一種瞭解和獲取信息的過程。

信息意識是信息能力的基礎和前提,並滲透於信息能力的全過程,只有強烈的信息意識才能推動信息能力的提高。

(2)信息素養的培養:其中信息檢索能力是培養提高信息素質的重要途徑。

信息檢索能夠促進信息意識的增強
文獻信息具有滿足人們某種需求的價值。但人們能否及時有效地獲取所需的信息,則取決於信息意識的強與弱。因爲,對文獻信息的獲取和利用的行爲是收到信息意識支配的。

但信息意識的增強是在信息檢索的實踐中實現的,它需要人們有意識地在信息獲取與利用的過程中自覺地去培養。

信息意識與信息檢索是相輔相成的。信息意識能促進信息檢索能力的提高和完善,而信息檢索又是培養、增強信息意識的重要途徑。

信息檢索能夠促進信息能力的提高:掌握信息檢索只是並在信息實踐中培養信息檢索能力,就能逐步提高自己的信息能力。

51、文摘
文摘是以簡明扼要的文字對文獻原文的摘述。它將論文或書籍中的主要觀點、論據、數據等摘錄出來,並按一定方式編排,是當代報道學術動態的簡捷明快的方法,也是一種文獻檢索和閱讀的工具。文摘型檢索工具已成爲現代重要的檢索工具類型,它具有報道、檢索、參考、示址、交流等功能,除幫助做出文獻判斷外,還能避免閱讀某些文獻的全文,幫助克服語言障礙。
文摘型檢索工具中,對應每一文獻的文摘,一般由三部分構成:①題錄:也稱書目著錄事項,它是對文獻外表特徵進行著錄,以便識別、索取原文的項目記錄。一般由題名、著者及其單位、文獻出處等項組成。②文摘正文:即表述文摘內容的短文,是文摘的主要部分。③補充事項:主要包括參考文獻數、插圖或表格數、原文所用語種、文摘編寫者、文摘員所加的腳註等。一般置於文摘正文的末尾。
文摘按其對原文獻的揭示程度劃分,可分爲報道性文摘和指示性文摘。
①報道性文摘:它是在對原始文獻進行深入的語義和邏輯分析的基礎上進行高度濃縮而形成的。其所含信息量大,參考利用價值高,在一定程度上可代替原文,對幫助讀者瞭解某些難得的文獻內容和克服語言障礙有突出作用。適用於那些學術價值高、內容豐富新穎、主題集中專一的文獻。
②指示性文摘:它是指明原文主題和內容梗概的文摘,又稱“簡介”。它一般只指明文獻含有何種信息,並不摘錄原文中的具體內容。它不能取代原文,只供讀者對原文有初步的瞭解,以決定是否閱讀原文。
文摘舉要:《新華文摘》《社會科學文摘》
52、書目、索引與文摘三者的比較
書目、索引、文摘是人們查檢書刊文章等信息的重要檢索工具。書目是圖書或報刊目錄的簡稱。它著錄和揭示一批相關的文獻,按一定的次序編排而成,是一種登記、報道和宣傳文獻的檢索工具。索引是把一種或多種文獻中具有檢索意義的內容,如字、詞、句、人名、地名、書名、篇名、主題等摘錄下來,按一定順序加以編排並註明出處以供查檢的工具。文摘是以簡明扼要的文字對文獻原文的摘述。它將論文或書籍中的主要觀點、論據、數據等摘錄出來,並按一定方式編排,是當代報道學術動態的簡捷明快的方法,也是一種文獻檢索和閱讀的工具。
書目、索引、文摘同作爲線索性工具書,有一些共同點:
①三者都是揭示和檢索原始文獻的工具,它們的編制離不開原始文獻,其內容受制於被揭示的文獻。
②它們的利用也是以原始文獻爲依託的,在一般情況下,它們必須與原始文獻配合使用,才能夠給讀者提供完整的信息。
③三者都是對原始文獻的描述和揭示,其作用在於方便讀者檢索原始文獻。它們詳細完整地著錄了原始文獻的外部特徵及部分內容特徵,以便讀者甄別、選擇文獻。它們提供了原始文獻的各項檢索標識,包括文獻題名、作者、分類號、主題詞、序號、代碼等,便於讀者利用這些標識檢索原始文獻。
三者的不同之處主要體現在著錄的深度和詳略上。
①書目一般以每一種完整的文獻爲揭示對象,著錄項目強調版本、發行事項的揭示,提要除介紹文獻內容外,還強調著者介紹,並且注重評論得失和考證。書目除了用於報道文獻外,還有指導閱讀和指示藏所的作用。
②索引一般以文獻裏的事項或單元知識爲揭示對象,強調揭示文獻的內容特徵,比書目具有更強的檢索深度。而且索引的著錄內容標明出處,主要起到指向和示址作用。
③文摘的揭示對象既有論文,也有書籍,著錄項目包括基本項目和文獻摘要,其摘要主要是原始文獻的高度濃縮,一般不加以評論,它包含有更多的信息量,不但有指向和示址作用,還有報道的功能。
53、字典、詞典
字典是以字條爲單元,對字的形體、聲音、意義以及用法或其他屬性做出說明的工具書。詞典是以詞條爲單元,對詞目的概念、意義及用法做出說明或提供信息的工具書。對於一般的語文性字典、詞典來說,不僅釋字,而且釋詞,並無嚴格的區別,字典是以釋字爲主,詞典是以釋詞爲主,只是側重點不同。
我國古代最早的字書是《史籀傳》。漢字主要有形、音、義三個方面,與此相對應,按註釋的側重點不同,字書形成三大系統:以講字形爲主的字書(以《說文解字》爲代表),以講字(詞)義爲主的字書(以《爾雅》爲代表),以講字音爲主的字書(以《廣韻》爲代表)。現在我們所使用的字典、詞典,都是在這三大流派的基礎上發展演變而來的。1915年出版的《中華大字典》,吸取了西方的編纂方法,成爲現代字典、詞典的開創之作。此後,各種字典、詞典日漸增多,具有代表性的:《新華字典》、《現代漢語詞典》、《漢語大字典》、《辭海》、《辭源》等。
現代字典、詞典種類很多。一般按收錄內容歸類,可分爲語文字(詞)典和知識詞典兩大類:①語文字(詞)典:是用於解釋字(詞)的形、音、義問題的,包括綜合性字(詞)典、專門性字(詞)典、字(詞)表。②知識詞典:是爲學習學科基本知識和爲研究某一專門學科、某一專門問題而編的,可分爲百科詞典、專科詞典、專名詞典。
字典、詞典舉要:①查古代漢語字詞:《康熙字典》《中華大字典》《辭源(修訂本)》②查現代漢語字詞:《新華字典》《現代漢語詞典》《辭海(1999年版普及本)》③查古今漢語字詞:《漢語大字典》《漢語大詞典》
54、年鑑
①年鑑的定義及特點:年鑑是系統概述一年內各個方面或某一方面的進展情況,彙集有關重要文獻及統計資料等,按年度編輯出版的工具書。從總體上說,年鑑有如下特點:
1)時限性:一般以年爲限,逐年出版,以記事爲主,彙集最近一年或截至出版年爲止的各方面或某一方面的情況、統計資料等,故有人稱之爲“年度百科全書”或“微型百科全書”。
2)新穎性:由於年鑑按年出版,能及時反映上一年的最新信息,其主要內容不斷更新,其間雖有回溯性的資料,但所佔比重較小。年鑑時效性很強,信息價值很高。
3)資料性:年鑑收錄資料廣泛而集中。是知識密集、信息密集、時間密集、人才密集型的資料性工具書。
4)準確性:年鑑選材嚴格,其學術性條目多由專家學者撰寫或審定。其文獻、資料、數據主要依據政府公報和文件、有關部門的統計、重要報刊的報道及專業工作者的撰述。
②年鑑的產生和發展
年鑑的編纂始於歐洲。世界上第一部以“年鑑”命名的書出版於1457年,最初不定期出版,16世紀後逐年出版,逐漸演變爲提供一年內事件和統計資料的年度型工具書。目前,世界各國年鑑的種類和數量仍在急劇增長。我國現代形式的年鑑是從西方傳入的。20世紀80年代,我國年鑑事業得到了蓬勃的發展,不僅品種數量直線上升,內容質量上也有了長足的進步,出現了所謂的“年鑑熱”。
③年鑑的類型:按不同的分類標準,可將年鑑劃分爲不同的類型。一般來說,年鑑主要有以下幾種類型:
1)綜合性年鑑:系統反映社會各方面進展情況、各學科研究信息、基本知識和相關資料,涉及的內容廣泛,信息豐富。
2)專門性年鑑:集中反映某一專門範圍的年度進展情況及有關的資料,多半圍繞一定的學科、專業、專題、部門、行業收集和提供有關的情況和資料。
3)地方性年鑑:反映一省、一市、一地的基本情況。
4)統計性年鑑:主要以表格和數字來說明有關領域或部門的進展情況。
④年鑑的功能:年鑑主要通過欄目反映各種信息,各類年鑑均有其穩定的基本欄目,並根據需要設置具有本學科、本部門、本行業特色的欄目。每個欄目都具有不同的職能,提供不同的信息,可以從不同角度滿足讀者的各種需求。年鑑的主要功能有:
1)提供時事動態信息:年鑑可以幫助讀者系統、全面地瞭解國內外大事、時事動態及有關重要文件。
2)提供各學科研究信息:專業性年鑑是系統掌握某一學科研究動態、研究成果和發展趨勢的重要途徑。
3)提供統計數據資料:統計性年鑑專門彙集各類統計數字,其他年鑑也往往設有統計數據等欄目,年鑑是很重要的數據來源。
4)提供實用的指南性資料:年鑑一般設有人物傳記、機構名錄、報刊簡介、新學科介紹等欄目。這些欄目所提供的信息,常是學習和研究中必需的資料。
5)提供綜述及回溯性資料:年鑑中有一些類別不同、長短不一的綜述性文章或條目。它們由熟悉本專業、本地區、本領域情況的專家在佔有大量的事實、文獻數據的基礎上,經過歸納、綜合、研究之後寫出的,可使讀者對該學科、該地區、該領域的發展概況有較完整、系統的瞭解。另外,各類年鑑的創刊號一般都收集一些歷史性的資料,可通過創刊號來查到有關回溯性大事和數據,很有參考價值。
6)提供書刊論文線索:提供文獻線索是專業性年鑑的一項特殊功用。好的專業性年鑑設有“書目”、“索引”、“文摘”欄目。這些欄目所反映的著作和論文,都經過了有關專家的認真篩選,是本學科年度研究的重要成果,給學習和科研提供了豐富的資料線索。
⑤年鑑舉要:《中國百科年鑑》《人民手冊》《世界知識年鑑》《世界經濟年鑑》《中國經濟年鑑》《中國統計年鑑》
55、百科全書
①百科全書的定義:百科全書是彙集各學科或某一學科的專門術語、重要名詞,以詞典的方式進行編排,對每一詞目都加以全面系統而又客觀簡明的闡述,並對新的研究成果加以反映的大型工具書。百科全書涉及各個領域,其內容之豐富、規模之宏大、檢索功能之完備是其他工具書所不能及的。在各類工具書中,百科全書堪稱“工具書之王”。
②百科全書的產生與發展:西方百科全書的編纂可以追溯到古希臘、古羅馬時期。古希臘哲學家斯珀西波斯和古希臘哲學家、科學家亞里士多德,編纂過概述各種學問的百科全書式的著作,被認爲是百科全書的先驅者。亞里士多德還是最早對科學進行分類的人,他的思想和實踐對後世百科全書的編纂有較大影響,人們稱他爲“百科全書之父”。到了中世紀,出現了一批具有代表性的百科著作。英國學者錢伯斯,編纂了《百科全書,或藝術與科學綜合大辭典》,概述影響較大,錢伯斯因而被稱爲“現代百科全書之父”。我國於清朝末年開始編譯外國百科全書。
③百科全書的特點
1)概括性:百科全書取材廣泛,是百科知識的總彙,它用準確精練的語言,系統概述了人類各個知識領域或某個知識領域的基本事實、基本概念和基本理論,提供了各種事物的基本知識、歷史和現狀。
2)權威性:著名的百科全書通常設立陣容強大的編輯機構,各條目的編纂,都是由各個領域、各門學科的著名專家學者來完成的,以保證其質量。
3)易用性:百科全書集中了日臻完善的編排方式、索引和參見系統,重要條目後都附有參考條目,或在文中註明徵引資料的出處等,讀者能從多種角度,用最短的時間檢索到所需的知識。
④百科全書的作用:百科全書包羅萬象,能爲人們提供人類各個知識領域的基本知識,是學習和工作中最常用的、必備的工具書之一。人們往往稱之爲“沒有圍牆的大學”、“知識的小宇宙”、“精簡的圖書館”。百科全書的主要作用可概括爲兩個方面:
1)提供各種資料:百科全書收錄資料廣泛,是人們解疑釋難的好工具。無論是解決學習工作中遇到的問題,還是查找各種問題的基本資料等,都可以利用百科全書。
2)幫助系統求知:百科全書對知識領域的覆蓋面廣,對各學科知識不畸輕畸重,客觀、系統、完備、翔實地介紹各門學科的基本概況和基本理論。同時,它介紹的知識是不斷更新的。目前,外國百科全書把5年以上的資料都看作過時的資料,因而很重視修訂工作。利用百科全書,可以系統學到某一學科的基本知識,瞭解各學科的發展水平。
⑤百科全書的類型
1)按內容範圍分:有綜合性百科全書和專科專題性百科全書。
2)按地區範圍分:有國際性百科全書和地域性百科全書。
3)按讀者對象分:有成人學術性百科全書、成人普及性百科全書和青少年通俗性百科全書。
⑥百科全書舉要
《中國大百科全書》是我國第一部具有權威性的大型綜合性百科全書。該書內容上最大的特點是新、精和實用。它既關注基礎,又偏重前沿;既兼顧過去,又重視現代;既側重中國,又涵蓋世界。它闡述的基本知識和提供的學術資料,其廣度、深度和質量使之成爲一個比較完整的知識體系。該書的檢索系統十分完備,設有多種檢索途徑。另外每年還出版該書的補編《中國百科年鑑》,及時提供新的知識信息。
《簡明不列顛百科全書》中國大百科全書出版社和美國不列顛百科全書公司合作編譯,主要根據英文版《不列顛百科全書》第15版的《百科簡編》編譯而成,其中有關中國的條目由我國專家學者重新撰寫。
《簡明中華百科全書》是我國一部有代表性的小型百科全書。內容以全面、系統、簡明地介紹中國古今文化爲主,內容構成有鮮明的特色。該書貫徹詳今略古的原則。在全書的整個知識體系中,1948年以後的近現代中國是介紹的重點。
56、手冊
①手冊的定義和特點:手冊是彙集某一方面經常需要查考的基本知識和數據資料,系統的加以編排,以供讀者隨時翻檢的一種工具書。手冊的名稱很多,有指南、便覽、要覽、一覽、必讀、必備、大全、寶鑑等。手冊主要有如下特點:
1)實用性:手冊可以說是一種面向實際的工具書,它一般是根據人們在學習、工作和生活中經常碰到、急需解決的知識性問題而編制,提供有關的基本知識和基本資料。
2)靈活性:在工具書中,手冊是一種最模糊最不確定的類型。它不像其他工具書一樣有確切的內容對象,是一種比較靈活的工具書。
3)資料性:手冊通常是簡明扼要地概述某一學科、專業、專題的基本知識和基本資料,注重圖表和數據,具有主題明確、資料翔實具體等特點。
②手冊的產生和發展:我國類似手冊的書籍產生較早。在敦煌石窟發現的公元9至10世紀的《隨身寶》可作爲我國較早具有綜合性手冊性質的工具書。近現代以來,由於科學技術的發展,各種知識在社會實踐活動中的運用越來越廣,作用日益重要,手冊也因此得到迅速發展,出版數量日益增大。新中國成立後,特別是20世紀80年代以來,手冊的種類和數量是驚人的,尤其是科學手冊出版數量相當可觀,社科各學科各專業的手冊也大量涌現。
③手冊的類型:手冊靈活多樣、資料穩定、實踐性強,它能簡明扼要地爲人們提供各學科專業基礎知識和各行業實用知識,是工作學習中不可缺少的方便使用的工具書。按編纂目的和內容範圍,手冊可分爲綜合性手冊和專門性手冊。
1)綜合性手冊:即一般常識性手冊,面向的是廣大讀者,主要提供學習、生活的基本知識和資料。它又可分爲兩種:一種是爲各學科專業提供基本知識和資料;另一種是爲日常學習、工作提供常識性知識.
2)專門性手冊:服務對象是專業工作者或專門人員,主要提供專門知識或資料。它又可分爲三種:一是側重爲某一學科專業提供基礎知識、基本事實,包括數據、圖表、條例等,並反映該學科專業新的研究成果;二是側重爲某項具體工作或某一具體活動提供特定的實用性知識;三是介紹生活實用知識。
④手冊舉要
《世界新學科總覽》介紹了470多門哲學、社會科學及與新技術革命有關的自然科學和技術科學的新學科。全面介紹每門新學科的定義或界定、產生的時代背景與社會環境、奠基性著作與學科創始人、研究內容、學科發展與現狀、研究機構和組織等項內容。
《當代中國社會科學手冊》是一部學術情報性的資料書,比較系統地介紹了新中國成立以來特別是黨的十一屆三中全會以來我國社會科學事業的發展狀況、研究成果及有關的資料。
《當代國外社會科學手冊》是一部情報資料性的參考工具書,比較全面地介紹了當代國外社會科學發展的概況與動向,以及一些國家社會科學研究的組織與管理情況。
57、名錄
①名錄的定義及其發展:名錄是將機構名、人名、地名等彙集在一起,按分類或字順加以排列,並對相關事項予以簡要揭示和介紹的工具書。我國的名錄起源很早。古代名錄,見於著錄的多爲人名錄。民國時期,也出版了幾種專門名人錄。20世紀初,我國的機構名錄發展很快。1949年至70年代末,由於多種原因,我國出版的名錄寥寥無幾。80年代後,隨着改革開放的深入,信息交流的擴大,經濟實體和學術機構紛紛成立,從而促使人名錄和機構名錄大量出版。同時,隨着國際交流的頻繁,地名作爲地理實體的標記和符號,與人們各種社會活動的關係日益密切,從而使地名信息顯得十分重要。
②名錄的特點
1)資料性:名錄是一種比較典型的事實便覽型的工具書。它爲人們提供了有關機構、人名和地名的基本情況。
2)簡明性:名錄是提供專名簡要資料的工具書,好比是專名基本信息一覽表。每一專名的介紹只由最基本的具體資料組成,並形成格式化。它力求在有限的空間內,提供最基本的信息,沒有過多的描述,更沒有文字的鋪陳。
3)新穎性:名錄注重提供有關專名的最新基本信息資料。它的及時性是除年鑑以外的其他工具書所不能比擬的。爲了及時反映變化了的情況,名錄特別是機構名錄很注意修訂再版。
③名錄的類型
按收錄內容,大體可分爲機構名錄、人名錄和地名錄3類。①機構名錄:是彙集機構實體的名稱並對該機構做概要介紹的工具書。②人名錄:是彙集人的本名和別名並對人物予以簡要介紹的工具書,人名錄又可分爲綜合性名錄和專門性名錄。③地名錄:是著錄地名及相關資料的工具書,可提供地名的標準名稱、所在地域、地理位置等信息。
④名錄舉要:《中國政府機構名錄》《中國工商企業名錄大全》《世界工商企業大全》《中國當代名人錄》
《中國地名錄——中華人民共和國地圖集地名索引》《世界地名錄》
58、計算機信息檢索的含義
計算機信息檢索指人們根據特定的信息需求,按照一定的方法,利用計算機從相關的信息檢索系統中識別並獲取所需的信息。計算機信息檢索的過程包括信息存儲和信息檢索的過程。其本質是信息用戶的提問標識和信息集合數據庫特徵標識匹配的過程。
59、計算機信息檢索發展簡史
計算機信息檢索是計算機技術、通信技術、數據傳輸技術不斷髮展的產物,同時也是爲了滿足文獻快速增長、信息需求日益增長的需要。經歷了脫機批處理檢索、聯機檢索、光盤檢索和網絡化聯機檢索等階段。計算機檢索以其檢索效率高、檢索效果好而在信息檢索中得到了廣泛的使用。
①脫機批處理檢索:20世紀五六十年代是脫機檢索的試驗和實用化階段,其特徵是檢索時利用計算機作批處理。這一階段開始利用計算機編輯出版檢索性刊物。
②聯機檢索階段:20世紀60至80年代是聯機檢索試驗和實用化階段。1965年以後,第三集成電路計算機進入實用化階段,存儲介質發展爲磁盤和磁盤機,存儲容量大幅增加,數據庫管理和通信技術都有深入發展,信息檢索從脫機階段進入聯機信息檢索階段。
③光盤檢索階段:20世紀80年代以來,一種新型的信息載體激光光盤在信息檢索系統中得到越來越廣泛的應用。光盤檢索以其操作方便,不受通信線路的影響等特點異軍突起,大有與聯機檢索平分秋色之勢。
④網絡化聯機檢索階段:進入80年代,隨着TCP/IP通信協議的普通採用,以及美國國家科學基金會的介入,計算機檢索發展成了今天的互聯網。
60、計算機信息檢索的分類
(1)根據所檢索數據庫的形式,可分爲書目檢索、數據檢索、事實檢索和全文檢索。
①書目檢索:指查出某一主題的文獻條目的檢索。
②數據檢索:指利用相關的檢索系統查詢有關數據,以獲得某一問題量化的準確數值。
③事實檢索:指在計算機檢索系統中查詢有關事物或實在情報,以求得對某一問題的解答。
④全文檢索:指直接利用原始文獻建庫進行的檢索。
(2)根據計算機檢索服務方式,可分爲定題檢索、回溯檢索和日常檢索。
①定題檢索:是根據用戶檢索課題的內容,定期地從新到資料數據中爲特定用戶提問進行計算機情報檢索的服務
方法。具有定期性、新穎性和批處理式的特點。
②回溯檢索:指追溯查找過去的信息。可以查找最新的信息,取勝適應多數用戶的查詢需求。可用於申請專利時
的新穎性查詢、科研課題的立項和鑑定時的查新等。
③日常檢索:指用戶根據自己的信息需求,直接利用終端檢索,檢索系統即時提供用戶所需的文獻信息。
(3)根據檢索方法,可以分爲脫機檢索、聯機檢索、光盤檢索和網絡檢索。
①脫機檢索:是成批處理檢索提問的計算機檢索方法,是計算機信息檢索的初期類型。
②聯機檢索:是指檢索者通過檢索終端和通信線路,直接查詢檢索系統數據庫的機檢方式。
③光盤檢索:是指以光盤數據庫爲基礎的一種獨立的計算機檢索,包括單機光盤檢索和光盤網絡檢索兩種類型。
④網絡檢索:是利用E-mail、FTP、 Telnet、 Archie、WWW等檢索工具,在互聯網等網絡上進行信息存取的行
爲,目前主要利用的信息檢索系統是搜索引擎。
61、計算機信息檢索的特點
(1)手工檢索的特點:手工檢索是人們長期以來採用的文獻信息檢索的傳統方法,人們直接憑頭腦進行判斷,藉助簡單的機械工具,對記錄在普通載體上的資料來進行相應的檢索。手工檢索的優點在於直觀性強、靈活性高、費用較低等。但隨着信息數量的迅速增長,人們信息需求的快速拓展,手工檢索的不足也日益明顯,比如檢索速度慢、時空的限制強、更新週期長、新穎性和時效性低、檢索途徑少等。
(2)計算機檢索的特點:計算機信息檢索產生於20世紀50年代,發展於80年代中期,90年代後隨着互聯網技術的發展而進入了一個嶄新的時期。計算機信息檢索的應用和普及對於彌補手工檢索的缺陷,提高信息檢索的效率,具有劃時代的意義。其特點主要有:
①檢索範圍大:由於計算機的運算速度高和數據庫存儲量大,計算機信息檢索系統收錄了數量巨大、內容全面的信息。
②檢索速度快:計算機的快速運算能力保證了計算機檢索系統的檢索速度,手工檢索需要數日甚至數週的課題,計算機檢索只需要數分鐘甚至幾秒就可以完成,大大提高了檢索文獻信息的檢索速度,節約了讀者的檢索時間,提高了檢索效率。
③檢索功能強,組配靈活:計算機信息檢索系統一般都提供布爾邏輯檢索、截詞檢索、詞組檢索等,各類檢索詞之間可以靈活組配,還可對檢索詞之間的位置關係和短語進行全文查找。這是傳統的手工檢索所無法做到的。
④檢索途徑多:計算機檢索系統除具有手工檢索中採用的途徑外,還能滿足多途徑交叉檢索的需要,尤其適用於綜合性課題的檢索。
⑤數據更新及時、時效性強:利用計算機檢索的文獻信息更新週期短,計算機檢索系統根據自身的特點更新週期不同,如光盤多爲每月更新一次,網絡則每天更新一次。
⑥檢索結果輸出形式多樣:檢索結果可以選擇直接瀏覽、打印、存盤或E-mail傳送檢索結果,部分計算機檢索系統還提供不同字段的輸出形式,或者選擇簡單格式和詳細格式兩種檢索結果顯示形式。
不過計算機信息檢索也有一些不足,計算機檢索系統所收錄的數據的回溯時間有限,也就是說計算機檢索不能夠滿足所有的信息查詢需求。同時,計算機檢索需要檢索者具有一定的計算機知識,需要有計算機的環境,因而這種檢索方式並不是適合每一個信息需求者。就目前而言,計算機檢索日益成爲人們獲取信息的重要方式,但在很長一段時間內,手工檢索和計算機檢索仍將共存,互爲補充,共同滿足人們多元化的信息需求。
62、信息檢索策略
檢索策略,即在分析檢索課題內容實質基礎上,選擇檢索系統、檢索途徑,確定檢索詞及其相互間的邏輯關係等的信息檢索方案。信息檢索策略的實質是對檢索過程的科學規劃。關鍵在於構造能夠確切表達信息需求的檢索式。影響檢索效果的因素有很多,但對於已經建成的信息檢索系統而言,檢索策略的優劣是非常重要的因素。正確的檢索策略會優化檢索過程,有助於提高查全率和查準率,節約檢索時間與費用,取得最佳的檢索效果。反之,則會降低檢索效率。
(一)檢索表達式
檢索表達式是檢索策略的具體體現,簡稱檢索式。檢索式一般由檢索詞和各種邏輯運算符組成,它將檢索詞之間的邏輯關係、位置關係等用檢索系統規定的各種算符連接起來,成爲計算機可以識別和執行的命令形式。檢索式構造的優劣關係到檢索策略的成敗。主要有邏輯表達式、加權表達式和其他表達式,其中,最爲常用的是邏輯表達式。
(1)邏輯表達式
利用布爾算符進行不同檢索詞間邏輯組配,是目前計算機檢索最簡單、最基本的匹配模式,也是計算機檢索領域廣泛採用的表達方式。它用布爾算符表示兩個檢索詞之間的邏輯關係,然後由計算機進行相應的集合運算,以篩選出所需要的記錄。常用的布爾邏輯算符有三種,分別是邏輯與AND、邏輯或OR、邏輯非NOT。
①邏輯與:邏輯與是一種具有概念交叉關係或限定關係的組配形式,表示它所連接的兩個檢索詞必須同時出現在結果中。其組配符號用“AND”或“×”表示。檢索詞A與檢索詞B若用“AND”組配,則提問式可寫爲“A AND B”或者“A×B”,表示要找出含有這兩個詞的文獻集合。邏輯與的作用是增加限制條件,以縮小檢索範圍,減少終端顯示文獻的篇數,提高查準率。
②邏輯或:邏輯或是一種具有概念並列關係的組配形式,表示它所連接的兩個檢索詞中任意一個出現在結果中就滿足檢索條件。具有並列關係的概念如同義詞、近義詞、相關詞,包括上位詞和下位詞。其組配符號用“OR”或“+”表示。檢索詞A和檢索詞B若用“OR”組配,則提問式可寫成“A OR B”或者“A + B”,表示要檢索含有A、B詞之一或同時包含A、B兩詞的文獻。邏輯或的作用是房款提問範圍,增加檢索結果,提高查全率。
③邏輯非:邏輯非是一種具有概念排除關係的組配形式,表示它所連接的兩個檢索詞中應從第一個概念中排除第二個概念。其組配符號用“NOT”或“—”表示。檢索詞A或檢索詞B若用“NOT”進行組配,則提問式可寫爲“A NOT B”或“A—B”,表示要找出含有檢索詞A而不含檢索詞B的文獻。邏輯非的作用是在檢出的文獻集合中排除無用的文獻,縮小檢索範圍。
布爾邏輯表達式在實際檢索過程中,易於理解,便於使用。在邏輯表達式的構造中,根據不同的信息需求、不同的檢索策略,其檢索式構造也不一致。一般來說,對於以查全爲目標的檢索課題,在檢索式的構造過程中,用“與”連接的概念組面不能太多,應增加用“或”連接的相關檢索詞。對於以查準爲目標的檢索課題,其檢索式的構造一般可增加邏輯與的使用。
布爾邏輯表達式具有諸多的優點,可以表達與用戶思維習慣相一致的查詢要求,與計算機邏輯運算功能一致,表達意義比較明顯直觀,運算程序簡單,查詢描述準確,查準率較高等。但它同時也存在一些缺陷,比如:不能實現檢索結果的相關性排序;不能反映表達式中檢索詞的重要性;如果用戶的檢索課題中涉及的檢索詞較多時,可能要寫出一個相當複雜的邏輯表達式。
(2)加權表達式
加權檢索是指在檢索提問中,根據每個檢索詞在檢索要求中的重要程度,分別給予一定的數值加以區別,即賦權,這個數值稱權值,然後對含有這些檢索詞的文獻進行加權計算,其和在規定的閾值以上的,即確認爲命中文獻。採用這種方法表達信息需求的稱爲加權表達式。
實質上,網絡檢索工具的加權檢索也僅能控制某個詞語是否一定要在檢索結果中被包含或被排除,尚不能根據用戶的需求來確定某一個具體語詞的權值大小,從而確定它對檢索結果的影響程度。加權檢索可明確各檢索詞在檢索中的重要程度,檢索結果按照切題順序排列,在提高查全率和查準率方面均有一定的作用。但就具體應用來說,加權檢索的使用遠不及布爾邏輯表達式廣泛。
(3)位置檢索表達式
兩個檢索詞在文獻中相隔的距離不同,可能會在一定程度上帶來檢索結果的差異,單純依靠布爾邏輯表達式,不能滿足多種檢索需求。因而,人們又引進了位置檢索表達式,也稱鄰近檢索。通過位置算符來表示兩個檢索詞(或短語)之間的距離和位置關係。不同的檢索系統可能會採用不同的位置算符,目前應用廣泛的主要是“(W)”、“(nW)”和“(n)”、“(nN)”。(W)表示連接的兩個檢索詞相鄰,並且先後順序不能顛倒,是with的縮寫,檢索式可表達爲A(W)B。(nW)表示連接的兩個檢索詞之間最多可以插入n個詞(在中文方式下表示n個字),而且前後順序不能顛倒,檢索式可表達爲A(nW)B。(N)表示連接的兩個檢索詞相鄰,先後順序可以顛倒,是near的縮寫,檢索式可表達爲A(N)B。(nN)表示連接的兩個檢索詞之間最多可以插入n個詞(在中文方式下表示n個字),前後順序可以顛倒。
(4)截詞檢索表達式
截詞檢索,又稱詞幹檢索。所謂截詞是指檢索者將檢索詞在他認爲比較合適的地方截斷。截詞檢索表達式指在檢索中用專門符號(截詞符號)表示檢索詞的某一部分允許有一定的詞彙變化。由於是用截詞符來屏蔽未輸入的字符,是對詞的片段進行的非精確一致的檢索,所以也稱模糊檢索。採用截詞檢索,既能防止漏檢,又能節省機時,是提高檢索效率的有力措施。截詞檢索表達式在西方語言檢索中應用比較廣泛,在中文信息檢索中也有一定的應用。在西文中,採用截詞方法可以解決一個詞的單複數、詞幹相同而詞尾不同或英美詞拼寫差異等問題。從檢索效果上看,截詞檢索隱含布爾邏輯(OR)的檢索功能,具有檢索命令簡單、檢索步驟簡便、查全率較高等特點。在不同的檢索系統中,對截詞符號有不同的表示,有的使用“?”,有的使用“¥”、“!”、“”、“#”等。
截詞方式有多種,按截斷的位置來分,截詞有前截斷、中間截斷、後截斷等。前截詞,又稱左截詞、後方一致,允許檢索詞的前端有若干變化形式;中間截斷,允許檢索詞中間又若干變化形式;後截詞,又稱右截詞、前方一致,允許檢索詞尾部有若干變化形式。按截斷的字符數量來分,可分爲有限截斷和無限截斷兩種。截詞檢索表達式在使用時,一定要合理使用,截斷部分要適當,不要截得太短,以免增加檢索噪音,查出很多無關的文獻。
(5)限制檢索表達式
在信息檢索的實際過程中,有時還需要將檢索詞限制在標題、文摘等字段內。限制檢索也稱字段檢索。常用的字段限定代碼有:標題、作者、主題詞、年代等。
(二)檢索策略的構造步驟 / 信息檢索步驟(過程)
(1)分析信息需求(檢索課題),明確檢索要求:這是人們進行信息檢索的出發點,不同類型的檢索課題,信息需求的範圍和程度也不盡相同。在這一環節中,要明確檢索目的,明確檢索課題內容涉及的主要學科範圍和相關概念。在分析課題的基礎上,要清楚檢索信息的類型,以及要求查找文獻信息的時間範圍、學科範圍等,通過以上分析,對檢索需求作出全面的認識。
(2)選擇檢索系統:依據對信息需求的分析,選擇和檢索課題相符、收錄信息質量較高、檢索功能比較完善的信息檢索系統。檢索系統的選擇要求我們對目前可利用的檢索系統有一個大概的瞭解,如檢索系統收錄的信息所涉及的學科領域,信息類型,時間範圍,檢索途徑和檢索方法,檢索費用等等。
(3)選擇檢索途徑和檢索方法,確定檢索詞或檢索式:檢索詞的確定是建立在檢索課題概念分析的基礎上,有時,檢索課題會包含複雜的主題內容,應明確組成課題內容的直接概念和相關概念,通過一定的邏輯組配或其它方式形成一定的複合概念或概念關係來表達用戶的信息需求。在確定檢索詞時,應考慮它表達概念的確切性及其與系統存儲標識的一致性。
(4)處理檢索結果:在實施檢索的過程中,根據檢索結果的實際情況,可以調整檢索詞、檢索式、檢索途徑和檢索方法等,也可以充分利用信息檢索系統提供的縮檢和擴檢功能,完善檢索結果,直到達到滿意的效果。實施檢索之後,將所獲得的檢索結果加以系統整理,篩選出符合課題要求的相關文獻信息,選擇檢索結果的著錄格式,辨認文獻類型、文種、著者等項記錄內容,輸出檢索結果。
(5)獲取原始文獻:使用的信息檢索系統不同,原始文獻的獲取方式也不盡相同。比如,利用聯機信息系統,可以用聯機傳遞或脫機郵寄方式獲取原始信息;利用有關全文數據庫,可以直接打印或下載原始信息。
(三)檢索策略的反饋與調節
信息檢索過程是一個比較複雜的過程,受到諸多因素的影響,一次檢索的結果往往不能完全滿足檢索要求,有時會造成一些檢索偏差。這就需要我們及時調整檢索策略,糾正檢索誤差,以便獲取滿意的檢索結果。
(1)影響查全率與查準率的主要因素
提高信息檢索的查全率和查準率,是調節檢索策略的主要目標。在檢索策略中決定查全率和查準率的主要因素有:①主題分析是否準確、全面。對檢索課題進行主題分析,是正確選擇主題詞和構建檢索表達式的先決條件,也是提高檢索的查全率和查準率的前提。
②檢索詞選擇是否準確。選用的檢索詞的專指度如何,如果檢索詞過於專指或者過於泛指,都會不恰當地縮小或擴大檢索範圍。
③檢索詞之間邏輯關係的配置是否合適。邏輯與的使用有助於提高查準率,邏輯或的使用有助於提高查全率,截詞檢索的使用可以提升查全率,限制檢索可以將檢索詞限定在某一範圍內,有利於查準率。但是,如果不合適地使用邏輯算符或其他算符,就會帶來一些負面的影響,降低檢索的查全率和查準率。
(2)提高查全率的方法
提高查全率,意味着要擴大檢索範圍,即擴檢。可以採用以下方法:
①降低檢索詞的專指度。即選用的檢索詞範圍面要廣一些,泛指性要強一些。除選擇恰當的主題詞外,還應該選擇比恰當的主題詞內容範圍更廣的上位詞。
②增加同義詞、近義詞或相關詞的邏輯或運算。進行課題檢索時,不僅要選擇較爲規範的主題詞,而且要考慮與該主題詞相關的同義詞或近義詞。反映同一概念的檢索詞越多,則越能保證查全率。對於一些表示整體的概念,如果想提高查全率,可以將整體概念進行拆分,並用邏輯或連接。
③選用截詞檢索。爲防止漏檢,得到比較全面的結果,可以利用截斷的詞的一個局部進行檢索,利用一組相關詞詞首一致的特性,進行相關擴檢。這種方法比較簡單易行,通過一個檢索詞查出許多相關或相近的文獻,可避免輸入多個詞幹相同而詞綴不同的檢索詞,從而簡化檢索過程,節約用戶的時間,提高檢索速度。
④增加和調整檢索途徑。如可將主題檢索和分析檢索結合起來,也可以調整檢索途徑。
(3)提高查準率的方法
提高查準率,一般是在有一定查全率的基礎上再進行縮檢,可以採用以下方法:
①提高檢索詞的專指度,增加或換用下位詞和專指性較強的關鍵詞進行檢索。比如,想查找“網絡檢索工具”的有關資料,爲了增加查準率,可以採用提高專指度的方法,增加或換用“搜索引擎”、“網絡資源目錄”等專指詞,提高檢索結果的相關性。
②用AND連接一些進一步限定主題概念的相關檢索項,增加相互的制約。在一些搜索引擎和數據庫中可以採用“二次檢索”(或“在結果中查詢”)實現增加邏輯與運算的功能,提高檢索的查準率。它要求檢索者開始時不要把條件限制得過於嚴格,如檢索結果數量過於龐大,再逐步排除檢索結果中不需要的內部。這種逐步縮小檢索範圍的方法,可實現由查全向查準的逼近。
③用NOT來排除一些無關的檢索項。在第一次檢索結果出來之後,根據需要可以採用邏輯非將一些與提問不相關的文獻排除,減少檢索噪音。但應該慎重地使用邏輯非,切勿將不該排除的文獻去掉。
④採用限定檢索,縮小檢索範圍,提高查準率。比如,可以將檢索詞限定在題名字段、主題字段等,也可以利用文獻的外部特徵加以限制,如文獻類型、出版年代、語種、作者等等。
63、信息檢索技術
信息檢索技術指應用於計算機信息檢索過程中的相關技術的總和。關於信息檢索技術,可以從兩個方面進行理解:一是集中應用於計算機檢索系統的檢索技術;二是檢索手段的技術變革。計算機檢索技術主要有布爾邏輯檢索技術、截詞檢索技術、限制檢索技術、加權檢索技術、全文檢索技術、多媒體檢索技術等。檢索手段的技術變革主要經歷了書刊式、卡片式、縮微品和磁帶、聯機檢索技術、光盤檢索技術和網絡檢索技術。
(1)布爾檢索(2)截詞檢索(3)加權檢索(4)位置檢索(5)限制檢索
(6)全文檢索技術
全文檢索就是以各類數據諸如文字、聲音、圖像等爲主要處理對象,根據數據資料的內容,而不是外在特徵來實現的信息檢索技術。全文檢索技術最早出現在美國匹茲堡大學1959年建立的法律情報檢索中,進入20世紀80年代以後,許多商品化聯機檢索系統都開始大力推行並發展全文檢索數據庫。網絡環境下,搜索引擎的發展更大程度地推進了全文技術的發展。
與其他檢索技術相比,全文檢索技術的新穎之處在於,它可以使用原文中任何一個有實際意義的詞作爲檢索入口,而且得到的檢索結果是原文獻而不是信息線索。全文檢索技術不同於傳統數據庫的字段檢索,它採用特別的索引技術,將相關的文獻信息,經過索引產生器的瀏覽而建立起所謂的索引數據庫。當用戶進行檢索時,系統通過使用者輸入的關鍵詞,迅速地從索引數據庫中找到用戶需要的信息,並且將相關索引顯示出來,供用戶選擇和瀏覽全文。全文檢索技術的顯著特點是提供對海量數據的管理和快速查詢。
目前的全文檢索技術還存在着一些未盡如人意的地方,尤其是在查準方面難以保證,原因是用孤立詞和詞彙術語作爲檢索入口,缺乏語義的內在關聯,檢索的效果不是十分理想。爲了解決這一問題,全文檢索技術開始和人工智能緊密結合,增加對內容的分析理解,內容表達、知識學習、推理機制。隨着智能化技術的發展,全文信息檢索技術必將更廣泛和高效地應用於網絡信息檢索領域。
(7)多媒體檢索技術
多媒體檢索技術指對多媒體信息專有的檢索技術,重點是基於內容的多媒體信息檢索技術。隨着多媒體技術的迅猛發展,網絡傳輸速度的提高,以及新的有效的圖像/視頻壓縮技術的不斷出現,對海量多媒體信息的需求日漸增強,在這一背景下,基於內容的多媒體信息檢索技術應運而生。它作爲一種先進的檢索技術,廣泛地應用於多媒體數據庫、知識產權保護、數字圖書館、遠程醫療、天氣預報以及軍事指揮系統等。它與傳統數據庫技術相結合,可以方便地實現海量多媒體數據的存儲和管理;與網絡搜索引擎技術相結合,可以用來檢索互聯網中豐富的多媒體信息,具有廣闊的發展前景。
基於內容的多媒體檢索技術突破了傳統的基於文本描述和檢索的侷限,直接對圖像、視頻、音頻內容進行分析,利用媒體對象的語義、媒體的視覺和聽覺特徵來進行檢索。也就是依據圖像中的顏色、紋理、形狀,視頻中的鏡頭、場景的運動,聲音中的音調、響度、音色等內容特徵建立索引並進行檢索。基於內容的檢索還融合了模式識別、計算機視覺、圖像理解等技術,是多種技術的合成。基於內容的多媒體檢索技術具有與傳統文本檢索不同的特徵,實施的是一種相似性檢索,摒棄了傳統的精確匹配,採用近似匹配或局部匹配的方法和技術逐步求精,來獲得查詢和檢索的結果。直接對媒體的內容進行分析並抽取內容特徵,利用媒體自身的特點進行標引和檢索,在很大程度上避免了對影像的主觀描述。
根據所檢索媒體對象的不同,基於內容的多媒體檢索技術又可分爲基於內容的圖像檢索技術、基於內容的視頻檢索技術和基於內容的音頻檢索技術等。
①基於內容的圖像檢索技術(CBIR)
基於內容特徵的圖像檢索技術CBIR(Content-based Image Retrieval)主要依據圖像固有的特徵來標引和檢索。所謂圖像特徵包括:圖像的畫面內容特徵,如圖像顏色分佈、紋理結構等;圖像描述對象特徵,如人、物、景等;圖像的相關信息,如作者、時間、地點及其他物理特徵;圖像的移動和組合特徵等。基於內容的圖像檢索技術通過分析圖像的內容,建立特徵索引,並存儲在特徵庫中。用戶在檢索查詢時,可以從圖像自身的特徵將查詢需求描述出來,就可以在大容量圖像庫中找到所需的圖像。基於內容的圖像檢索技術包括的關鍵技術有顏色特徵提取、紋理特徵提取、形狀特徵提取、相關反饋等等。基於內容的圖像檢索方式主要有3種:
1)選擇顏色的比例、輪廓形狀以及紋理圖案的圖樣進行查詢。例如用戶可以給出紅、綠、藍三種顏色的百分比,或從系統所提供的圖例中選擇某個作爲檢索圖樣。
2)草圖查詢。用畫圖工具生成草圖,從系統中查詢與草圖顏色分佈、形狀或紋理相似的結果。
3)示例查詢。選擇系統中的一幅圖像,要求系統檢索與之類似的圖像。用戶一般是通過瀏覽選擇系統提供的實例作爲查詢條件,然後再通過不斷修改實例最終找到匹配目標。
目前比較成功的應用基於內容的圖像檢索技術的系統有IBM公司的QBIC系統、MIT媒體實驗室的Photobook系統、新加坡國立大學的CORE系統等。
②基於內容的視頻檢索技術
視頻又稱動態圖像,是一組圖像按時間順序連續表現,它的表示與圖像序列、時間關係有關。視頻數據可有幕、場景、鏡頭、幀等描述。視頻序列主要由鏡頭組成;鏡頭由一系列連續的幀組成;幀是一幅靜態的圖像,是組成視頻的最小單位;場景含有多個鏡頭;幕是由一系列相關的場景組成,表達一個完整的事件。視頻檢索實際上是對動態圖像進行檢索,視頻檢索的實質就是在大量的視頻數據中找到所需要的視頻片段。
動態視頻檢索需要對視頻信息進行視頻分割和處理,包括視頻結構的分析、視頻數據的自動索引等。首先,要進行視頻結構的分析。通過鏡頭邊界的檢測,即把視頻分割成基本的組成單元——鏡頭,鏡頭就由一系列幀組成的一段視頻,鏡頭邊界檢測的核心處理是識別鏡頭的切換。視頻分割成鏡頭後,要從每個鏡頭中抽取關鍵幀。關鍵幀是指鏡頭中最重要的、有代表性的一幅或多幅圖像。依據鏡頭內容的複雜程度,可以從一個鏡頭中提取一個或多個關鍵幀或構造一個關鍵幀。其次,要對視頻數據自動索引。這個過程包括關鍵幀的選取以及靜止特徵與運動特徵的索引,然後依靠這個特定空間來進行鏡頭內容的比較。視頻數據的自動索引是對視頻內容的高度概括,是視頻中最重要、最精彩的總結。
這種新型的基於內容的視頻檢索技術,徹底改變了傳統的通過快進或快退等順序的方法進行人工查找的視頻檢索方式,滿足了用戶對大量視頻多角度檢索的需求。基於內容的視頻檢索的方法主要有基於關鍵幀的檢索、基於運動的檢索與瀏覽等。
③基於內容的音頻檢索技術
音頻是對聲音進行數字化處理得到的結果。音頻數據一般用音量、音調、音強、帶寬、音長和音色等屬性來描述,其中音量、音調、音強、帶寬和音長屬性易於通過技術手段進行信息化建模,而對音色的處理較爲複雜。在檢索前,首先對音頻數據建立索引,索引可以基於韻律、旋律以及其他的感知或聲學特徵。
基於內容的音頻檢索技術就是將輸入的字符序列和音頻數據庫中的字符序列相匹配。最簡單的音頻檢索是用準確的序號查找出一段聲音,較高級別的檢索是匹配任何包含給定樣值的聲音的檢索,更高級別的查詢可以涉及頻域信息或其他聲學屬性,最高級別的查詢中可以包含聲音的概念(主觀)特性。基於內容的音頻檢索主要關心的是上述最後兩級的聲學和主觀特性的查詢。聲音的一些聲學屬性,如音調、響度、音色,與音頻信息的測量屬性非常接近,因此可以在音頻數據庫中光存儲這些特性,以供檢索。常用的音頻檢索方法有賦值查詢、示例查詢和分類瀏覽等。目前有代表性的音頻檢索系統有美國加利福尼亞有限責任公司開發的Muscle Fish系統。
64、聯機檢索的含義
聯機檢索系統是專門提供聯機檢索服務的信息檢索系統。聯機檢索是指用戶利用終端設備,通過國內或國際(衛星)通信網絡,與大型計算機檢索系統的主機聯接,從而檢索世界各國存儲在計算機數據庫中的信息資料的過程。聯機檢索系統允許用戶用人機對話的交互方式直接訪問系統與數據庫,檢索以實時在線的方式進行。用戶按照聯機檢索系統的要求和規定輸入相應的檢索提問,計算機執行操作,並在用戶終端顯示輸出檢索結果。用戶可隨時修改檢索提問,以得到滿意結果,系統通過打印或傳輸方式將結果提交給用戶。
65、聯機檢索系統的組成
聯機檢索系統通常由檢索終端、通信網和聯機檢索中心3個部分組成。
①檢索終端:是聯機檢索系統與用戶聯繫的接口,它可以是由顯示器、鍵盤和打印機構成的標準終端,也可以是電傳終端或微機終端。目前主要採用的是微機終端。它的作用主要是向聯機檢索中心發送檢索請求和接收信息。
②通信網:是聯機終端與聯機檢索中心聯繫的橋樑。聯機檢索中的通信網有這樣一些類型:公用電話網、專用數據通信網、公用數據網。
③聯機檢索中心:是系統的中樞,由中央計算機、聯機數據庫、檢索與管理軟件及相應的檢索服務體制組成。中央計算機是聯機系統硬件的核心部分,它在很大程度上決定着系統的檢索速度和存儲容量,主要功能是在系統軟件和檢索軟件的支持下,有效地進行信息的存儲、處理和檢索,管理和控制整個系統的運行。聯機數據庫是聯機檢索系統的信息源,是系統各種數據庫的總稱,由系統本身自建或由數據庫生產者提供。
66、聯機檢索的特點
(1)檢索範圍廣,信息數據量大,數據質量高:聯機檢索開始於20世紀60年代,發展至今經歷了約40年的歷程,積累了非常豐富的高質量的信息資源,信息資源非常可靠,更新也很及時,可以獲取最新資料,而且能追溯查詢歷史性資料。學科覆蓋面極廣,幾乎涉及全部學科範圍。與互聯網普通信息相比,聯機數據庫都經過了嚴格的加工、標引,信息的附加值高,可靠性好,不用擔心出現互聯網那種良莠不齊、加工粗糙的信息。
(2)檢索速度快:聯機檢索與網絡檢索不同,主要是由專業的檢索人員來完成。同時,聯機檢索是以實時方式進行,從檢索提問的輸入、調整、修改到獲得最終結果的整個過程一般只需幾分鐘至十幾分鍾。就檢索時間花費和檢索結果有效性的比值來說,在單位時間內,通過聯機檢索所獲得的有效結果遠大於其他形式的計算機檢索,聯機檢索的速度遠遠超過了光盤檢索和網絡檢索,更是手工檢索所無法比擬的。目前的科技查新服務基本上仍由聯機檢索系統完成。
(3)查全率和查準率高,系統檢索功能豐富,檢索結果輸出形式多樣:聯機檢索系統是一種比較成熟的信息檢索系統,系統的建設和完善都是圍繞着提高查全率和查準率來進行的。同時,聯機檢索所提供的檢索方法也很全面,能夠非常有效地提供布爾檢索、字段限定檢索、截詞檢索等。聯機檢索系統還可以提供多種輸出形式,而網絡檢索的輸出格式相對來講比較單一。
(4)安全性能高:聯機檢索系統都是固定地屬於某一機構或公司,集中管理的模式,在很大程度上保證了檢索系統的安全性能,確保了數據的穩定性和可靠性。聯機檢索系統有它自己的通信網絡、專用通信軟件以及較爲完備的安全認證技術,從而保證了系統的安全。
(5)檢索費用較高:國際聯機檢索的費用不僅包括顯示(打印)費、字符費以及計算機檢索的機時費,還包括國內國際通信費,使得聯機檢索費用一般遠遠高於光盤檢索和網絡檢索。
67、聯機檢索系統服務方式
聯機檢索是一種更重要的現代化檢索方式,數千個數據庫幾乎覆蓋了所有學科領域,迅速高效地提供信息服務。目前,大多數國際聯機檢索系統都提供以下一些服務方式:
(1)回溯檢索:這是聯機用戶使用最多的一項服務內容,適用於項目查新、文獻調研、課題立項、申報專利、瞭解市場動態和競爭對手、新產品開發、公司的背景情況調查、經濟預測等信息檢索需求。回溯檢索是根據用戶的要求,從現在追溯到過去某個時間,一次性提供若干年內的有關信息,利用它既可以查找過去一段時間的信息,也可以查找最新的信息,能適應大多數用戶的信息需求。
(2)定題服務:這是聯機檢索系統一項服務功能,它能夠及時提供有關主題領域的最新文獻信息,主要用於研究進行中跟蹤同類專題的動態和進展。定題服務指針對用戶特定的信息需求,對儲存到數據庫中的最新文獻信息進行檢索,並將結果提交給有關用戶。實施這項服務的時候,需要將用戶的信息需求轉化爲檢索提問式,並將其長期保存在聯機檢索系統中,每當數據庫增加或更新記錄時,系統會自動將最新信息檢出,定期、連續、主動地提供給用戶。
(3)聯機訂購原文:聯機檢索系統主要提供的是原始文獻的索引、題錄或文獻,即所謂的二次信息,只有少部分是原始文獻,因而,用戶通過國際聯機檢索到的結果,如果需要原始文獻,但在國內館藏中又無法索取時,可通過國際聯機檢索終端訂購,聯機檢索系統會根據用戶的需要,提供原始文獻的傳遞服務。
(4)電子郵件服務:聯機檢索系統還提供有電子郵件服務,便於用戶與用戶、用戶與系統之間互相交流檢索經驗。電子郵件服務是一項成本較低,但卻方便快捷的服務,許多大型聯機檢索系統在不斷增加數據庫和完善檢索軟件的同時,增加了電子郵件服務。它也可用來傳遞系統管理人員對用戶提出的檢索諮詢的回答等。
(5)光盤服務聯機檢索系統在提供聯機檢索的同時,部分聯機檢索系統也提供光盤檢索服務,以達到方便用戶的目的。利用聯機檢索系統的光盤服務,可以大大降低檢索費用,而且還可以用於自建數據庫時數據的套錄和聯機檢索的實習培訓。
68、聯機檢索系統的功能
聯機檢索系統發展得比較成熟,數據質量可靠,檢索功能齊全。一般的聯機檢索系統都能提供以下的檢索功能:
(1)單詞檢索:利用聯機檢索系統查找信息的最簡單方法,檢索詞是一個單詞,系統在接到檢索指令後,檢出與該詞匹配的相關文獻。
(2)詞組檢索:分爲兩種情況,一個是固定詞組檢索,另一種是單元詞組配檢索。
(3)布爾邏輯檢索:聯機檢索系統都支持布爾邏輯檢索(AND,OR,NOT)。布爾邏輯檢索表現力較強,可以將複雜的提問進行概念分解,然後通過這些算符把分散的概念連接在一起。但它也存在着一定的侷限,在布爾邏輯狀態下,所有與AND連接的概念必須同在一條記錄中出現,難以反映主題概念的重要程度。而且檢索結果一般是按照編年的逆順序或用戶專門選定的順序顯示,不說明所有或任何檢索詞之間的可能關係。近年來,一些聯機檢索系統爲了突破布爾邏輯檢索的侷限,推出了新的檢索技術Target、Freestyle與WIN技術。它們允許用戶選擇確定那些被布爾檢索漏掉的相關標題,起到輔助性和相關性檢索的作用。
(4)截詞檢索:截詞檢索是一種靈活性強,簡便易用的方法,聯機檢索系統都採用了截詞檢索,但各個檢索系統採用的截詞符略有不同。在使用聯機檢索的截詞方式時,輸入的詞幹不能太短,以避免明顯的誤檢。
(5)位置檢索:在聯機檢索系統中位置檢索的使用也比較頻繁,它有利於提高檢索的全面性,聯機檢索系統均支持位置檢索。
(6)限制檢索:爲了提高檢索的準確性,聯機檢索系統允許將輸入的檢索詞限定在某一範圍內。聯機檢索系統的可檢字段(也稱檢索項)通常分爲表示文獻內部主題特徵的基本索引字段和表示文獻外部形式特徵的輔助索引字段兩大類。
69、聯機檢索系統的選擇(應考慮的因素)
(1)數據庫的信息覆蓋和時間範圍:同一數據庫的記錄在不同的聯機檢索系統中,包含的信息不完全一樣,有的檢索系統包含有更多的標引信息和文獻。同時,同樣一個數據庫常常被多個檢索系統收錄,但有的系統僅收錄數據庫的一部分,有的收錄其全部內容。
(2)檢索功能和打印格式:聯機檢索系統都提供有豐富的檢索功能,基本上都支持布爾檢索,限制檢索,位置檢索,截詞檢索等,但各個檢索系統所採用的算符和具體的方法會有所不同,尤其是位置算符和截詞功能,因而,應選擇自己比較熟悉的系統,提高檢索效率。此外,同一數據庫的可檢字段在不同的聯機系統中也可能不一樣,比較可檢字段在不同系統中的數量,也是聯機檢索系統選擇標準之一。還要考慮打印格式的因素,比如系統能否滿足按字段打印檢索結果的要求,還是僅給出幾個標準格式。
(3)原文聯機訂購:用戶進行聯機檢索的最終目的是獲取原始文獻,國內用戶利用國際聯機檢索,常常會碰到找不到原文的問題。因而,聯機檢索系統能否直接提供原文聯機訂購服務,能否以合理的價格提供,都是用戶考慮選擇聯機檢索系統的重要因素。
(4)檢索費用:相對於其他計算機檢索系統來說,聯機檢索的費用是比較昂貴的。不過,不同系統還是存在着價格差異,這是選擇系統要考慮的最重要的因素之一。檢索前應該考慮這樣一些費用因素:終端與主機之間的通信費;數據庫使用費是否包括在數據庫連接費中,或者兩者分開計算;每個記錄的脫機、聯機打印費是多少;各系統有無優惠條件;系統的響應時間。檢索費用一直是影響我國用戶使用國際聯機檢索系統的一個重要因素。
70、網絡環境下聯機檢索系統的發展
光盤檢索的出現曾對信息檢索領域霸主地位的聯機檢索形成了強烈的衝擊,光盤檢索在檢索費用、易用性以及對環境的要求等各方面都呈現出明顯的優勢。互聯網的出現對聯機檢索系統的發展,更是產生了深刻的影響。尤其是萬維網作爲互聯網發展史上的里程碑,極大地推進了網絡檢索的發展。20世紀90年代,搜索引擎層出不窮,越來越多的用戶開始利用互聯網這個全球性的信息資源寶庫,來獲得需要的信息資源。聯機檢索在這樣的網絡背景下,再次積極主動地調整自己,以適應生存和發展的需要。聯機檢索系統採取的措施有:
(1)建立網站,推出網上服務:面對網絡檢索發展的強大壓力,許多商業聯機服務機構紛紛調整政策,做出反應,顯現出聯機檢索系統融入互聯網的趨勢。它們在互聯網上建立自己的網站,利用互聯網直接爲終端用戶服務。DIALOG在1997年左右開始了萬維網檢索服務,有選擇地收集了聯機數據庫中的部分數據庫,採用對話框式的檢索方式,以友好的界面爲用戶提供服務。其他一些著名的商業聯機服務系統也紛紛上網,爲自己在互聯網上開設用戶存取節點。用戶只需要通過互聯網,遠程登錄其主機,就可以使用這些聯機系統的網上資源。
(2)調整收費制度,吸引更多用戶:聯機檢索高昂的費用一直是阻礙用戶利用聯機檢索系統的一個主要原因,這與幾乎免費的網絡檢索相比,可以說有天壤之別。在網絡檢索的強大沖擊下,聯機檢索被迫調整收費制度。DIALOG系統於1998年5月機構重組合並後,終止了基於鏈接時間收費的方式,推行按照用戶利用系統資源多少的收費DISLUNIT政策。此外,DIALOG系統還每月提供一兩個免費文檔,供用戶利用。1988年意大利的ESA開始實行新的收費政策,即每次檢索只收取數據庫使用費和機時費。
71、主要聯機檢索系統簡介
大型國際聯機檢索系統主要有:DIALOG、OCLC、MEDLARS、STN、ORBIT、BRS等,國內聯機系統中較大的4個系統是:中國庫及信息研究所的ISTIC系統、北京文獻服務處的BDSIRS系統、化工信息研究所的CHOICE系統和機電信息研究所的MEIRS系統。
(一)DIALOG系統
(1)概況:美國DIALOG系統是目前世界上最強大的國際聯機檢索系統,也是運作最成功的聯機商業數據庫系統之一。它始建於1966年,於1972年開始商業運營。DIALOG擁有900多種數據庫,15TB的信息總容量,14億條記錄,方便、靈活、快捷、準確、全面地提供各種科技、商業、社科高質量的信息。DIALOG系統遍佈6大洲,共有約25000個,至今仍是全球最大的專業信息提供商。DIALOG系統的聯機數據庫主要有四種類型:①題錄文摘型數據庫;②名錄手冊型數據庫;③全文數據庫;④數值型數據庫。DIALOG系統在互聯網上設立了網站,用戶可以通過互聯網檢索DIALOG系統,其檢索平臺主要有遠程登錄方式、DialogClassic,DialogSelect.,DialogWeb等四種方式。
(2)DIALOG系統的檢索步驟
①聯機準備:進行DIALOG系統聯機檢索的基本前提是要擁有該系統的使用權,也就是說要向DIALOG系統申請賬號,並交納應付費用。在聯機準備階段,首先,要做好所需的軟、硬件準備工作,包括終端、通信軟件和調制解調器等。這是與DIALOG聯機的物質基礎。其次,要制定周全的檢索策略,將用戶的檢索提問轉化爲DIALOG系統所能處理的檢索語句,其核心是編制檢索式。
②選擇聯機方式:目前可以採用兩種方式與DIALOG聯機:一種是通過CHINAPAC(專線)與DIALOG聯機。另一種是通過互聯網與DIALOG聯機。有兩種具體方法:可以使用遠程登錄命令TELNET DIALOG.COM或通信軟件DIALOGLINK,登錄到DIALOG聯機系統。更常用的方法是直接用瀏覽器以WEB方式檢索DIALOG系統。主要包括四種:利用WEB直接上網檢索;爲專業人員推出的WEB界面;非專業檢索人員WEB界面;數據庫藍頁。
③選擇檢索方式,熟悉檢索指認和操作方式,進行檢索:DIALOG系統提供兩種檢索方式:菜單式和命令式。菜單式檢索方式採用圖形界面,簡單易用,用戶使用起來非常方便,無需經過非常專業的檢索培訓。命令式檢索方式指按照DIALOG系統規定的各種指令和格式進行檢索,是DIALOG系統傳統的聯機檢索方式。命令式檢索方式要求用戶掌握和熟悉DIALOG系統的指令,比較適用於專業檢索人員利用。目前,用命令式檢索方式對DIALOG系統實施檢索依然是一種非常重要的方式。系統規定了大量的指令、字段限制符、邏輯算符和位置算符,可配合使用,檢索功能十分強大,能夠進行深度和廣度的檢索,確保查到非常切題的信息。檢索者在保證檢索質量的前提下,巧妙地運用一些檢索指令,可以有效地降低檢索費用,獲得更高的檢索效率。系統提供了60多種檢索指令,其中,基本檢索指令有:b命令、s命令、t命令、rd命令、logoff命令等。
(二)STN系統
(1)概況:STN系統創建於1983年,由德國卡爾斯魯厄專業信息中心、美國化學文摘社和日本科技信息中心合作開發,是當今世界著名的國際聯機檢索系統之一。STN系統目前收錄了220多個世界著名的數據庫,涉及55個專業領域。STN中數據庫類型有:書目型、全文型、名錄型、數值型和混合型。STN系統是一個比較有特色的聯機檢索系統。主要以科技信息爲主,其中化學化工信息和專利信息是該系統的特色。STN系統包括有許多非常權威的專業數據庫,如生物學文摘BIOSIS、化學文摘CA、美國醫學文摘MEDLINE等。STN是世界上第一個實現圖形檢索的系統,能夠實現化學物質的結構檢索,是檢索化學化工信息的最佳系統。STN系統的經營機構不是純商業性機構,每年都得到德國政府和日本政府的資助。它不以營利爲目的,聯機檢索費用明顯低於DIALOG系統,這些都是優於其他系統的地方。
(2)聯機方式:用戶如果想檢索STN系統裏的信息,必須建立STN賬號,有自己的用戶名和密碼。用戶可以通過三種方式與STN聯機:
①STN Easy: 是基於圖形的WEB界面,檢索方法簡便,無需掌握檢索指令,主要是針對沒有檢索經驗的普通用戶。在STN系統中,STN Easy可檢索90多個數據庫,收費也是最低的。可直接在STN網上免費申請賬號,30分鐘後就發送至E-mail中。
②STN on the Web:是基於文本的WEB界面,它結合了STN的命令檢索和瀏覽器的強大功能,用這種方式可以檢索STN系統的所有數據庫,使用所有檢索指令。該方式適用於有經驗的檢索者,非常方便。
③STN Express with Discover! 6.0:是TELNET界面,適用於專業檢索人員,與傳統的聯機檢索界面相似。它是一個非常完整的聯機檢索經典軟件包,允許在脫機狀態下輕鬆編輯檢索策略,在聯機狀態下迅速檢索。該檢索方式提供兩種檢索選擇:即STN命令語言和Discover!Wizards。
(3)檢索指令
STN系統的檢索指令有些與DIALOG系統用法類似,也有一些是獨有的。STN系統常用的指令有:1)begin命令;2)search命令;3)expand命令;4)display命令;5)save temp ln名/q(a);6)act名/q;7)dup rem命令;8)log y;9)help命令。STN對所有命令、檢索詞不區分大小寫;命令可用前3個字母或第一個字母代替;命令可一行輸入,STN允許一行最多240個字符,各命令間用分號隔開。
(三)OCLC的FirstSearch系統
(1)概況:OCLC即聯機計算機圖書館中心,創建於1967年,是世界上最大的提供文獻信息服務的非營利性組織機構之一。主要是面向圖書館,其目的是推動更多的人檢索世界上的信息,實現資源共享,並減少信息費用。目前使用OCLC產品和服務的用戶已有70個國家和地區的38000個圖書館和教育科研機構。
OCLC的FirstSearch是1991年推出的世界上使用量最大的交互式聯機信息檢索服務系統,是OCLC提供的主要信息產品和信息服務。爲滿足信息檢索的需求,適應高新技術的發展,增強系統的檢索功能,OCLC研製出了一個全新的聯機檢索系統New FirstSearch,取代了舊的FirstSearch系統。
New FirstSearch系統是一個綜合的,以Web爲基礎的聯機檢索系統,比舊的FirstSearch系統更易於查找、獲取和管理信息,界面更加友好,更加面向用戶。它能夠使用戶通過互聯網直接檢索到主題範疇廣泛的86個數據庫,這些數據庫絕大多數由一些美國的國家機構、聯合會、研究院、圖書館和大公司等單位提供。同時可完成對OCLC館際互借系統的無縫訪問,數千種印刷型和電子期刊的全文的跨數據庫的聯機顯示。New FirstSearch系統檢索功能靈活多樣,每個數據庫都有多種檢索入口,非常方便用戶利用。而且,New FirstSearch系統能在記錄中顯示出用戶所在圖書館的館藏標識,爲用戶有效快捷地從當地獲取到文獻提供了方便。
(2)New FirstSearch的12個數據庫介紹
可以把OCLC FirstSearch 中的12個數據庫分爲綜合性數據庫和專業性數據庫兩種類型:
綜合性數據庫有:①ArticleFirst;②ClasePeriodica;③ECO;④WorldCat;⑤Ebooks。
專業性數據庫有:①ERIC;②GPO;③ MEDLINE;④PapersFirst;⑤Proceedings;⑥WilsonSelectPlus;⑦WorldAlmanac
(3)檢索方式
①TTY(Telnet)方式:以遠程登錄方式登錄,以命令式的方式進行檢索。這種方式屏幕簡單,而且每一屏幕信息的後面都有命令提示,缺點是不能顯示圖像,每次換屏需要敲入命令等。它比較適合習慣於傳統聯機檢索的專業用戶使用。
②萬維網(WWW)方式:使用瀏覽器,選擇不同的接入方式檢索 FirstSearch 系統。萬維網方式簡單易用,可以顯示圖像、表格以及字符的上下標識等。萬維網檢索方式呈現的數據庫的界面分爲基本檢索、高級檢索、專家檢索。
(四)ORBIT系統
ORBIT是美國Online Retrieval of Bibliographic Information Time-Share的縮寫,ORBIT系統即文獻目錄信息聯機分時檢索系統。曾是僅次於DIALOG系統的世界上第二大國際聯機檢索系統,現擁有100多個數據庫,其數據庫類型包含石油、生化、環境、醫學、運動及安全科學等學科文獻。還擁有SAE(汽車、飛機交通工具)等數據庫。
該系統有一小部分數據庫與DIALOG系統相同,近年來,致力於提供一些DIALOG系統沒有的數據庫,在專利、能源、電子學領域的信息更爲齊全。在專利方面,它常年爲用戶提供WPI和U.S.Patent等,又將美國專利數據庫USPA和USPB合併成一個數據庫USPM,使用戶避免了跨文檔檢索。其他商情數據庫包括《會計文獻索引》、《化工產品市場信息》、《管理與銷售學文摘》、《微機產品信息庫》等。ORBIT系統提供聯機檢索、聯機訂購原文、定題檢索、回溯檢索和建立私人文檔等服務。以每週125小時以上向全世界2萬多終端用戶服務。
(五)BRS系統
BRS是Bibliographic Retrieval Service的縮寫。創建於1976年,總部設在美國的拉塞姆。最初時,只有3名工作人員,4種數據庫,修改了IBM公司研製的STAIRS軟件,提供聯機檢索。1977年初,增加爲9種數據庫,以其廉價政策和團體簽約折扣價的方式,贏得了市場。至1994年,數據庫增加爲160種。BRS的用戶主要爲生物醫學界及學術團體等。
1989年1月,MacMillan出版公司收購了BRS,併入其子公司InfoPro Technologies公司,1994年轉售給CD PLUS公司,更名爲OVID聯機系統。BRS/SEARCH檢索軟件賣給Dataware Technologies公司,OVID系統另外採用OVID檢索軟件。兩個檢索軟件略有差異。目前,BRS系統擁有數據庫近200個,重點在醫學、藥物學和生命科學等,在工業標準和技術規範方面也擁有一批獨家經營的數據庫。
(六)ESA/IRS系統
ESA/IRS爲European Space Agency/ Information Retrieval Service的縮寫,即歐洲空間組織信息檢索服務系統。建於1966年,總部設在意大利首都羅馬附近的費拉斯卡蒂,是歐洲最大的聯機信息檢索系統,目前有數據庫100多個,專業範圍涉及科學、農業、衛生、管理、專利、報告、社會科學和宇航及科學技術等。它所擁有的數據庫中,有近半與DIALOG系統相重複,14%與ORBIT重複,10%與BRS重複,25%與DATA-STAR重複,但也有自己所獨有的數據庫,如DATALINE(《金融數據庫》)、報道英國製造業情況的INDUSTRIAL MARKET LOCATIONS(《商業信息》)、提供歐洲國家公司財政信息的NEWSLINE/NEXTLINE(《公司金融文檔》)等。
(七)LEXIS-NEXIS系統
創始於1973年,最初只是LEXIS公司,1979年NEXIS加盟,對用戶提供數據庫聯機檢索服務。經過30年的發展,NEXIS目前已成爲成熟的聯機檢索和基於互聯網的網絡檢索系統,收錄有大量以法律、新聞、商業經濟、政府出版物等內容爲主的數據庫,尤其注重蒐集新聞、政府信息、法律信息及商業信息等,所提供的信息均爲原始資料,具有很高的使用價值,其中政府法規法律方面的數據庫中是LEXIS-NEXIS的特色信息源,在法律業界具有非常大的影響力。
1998年,該系統爲了吸引學術性用戶,從已有的各類數據庫中,選出了適合大學和學術研究使用的內容,專門做了一個《學術大全數據庫》,內容仍以法律信息、案例、新聞、商業金融信息、政府規章制度爲主,增收了醫學保健信息和各類參考資料,包含有期刊、報告、政府出版物、新聞快訊等5200餘種出版物,其中約90%有全文或部分全文。
(八)北京文獻服務處的BDSIRS系統
北京文獻服務處(Beijing Document Service,簡稱BDS)1978年由中國國防科技信息中心和北京市科協共同策劃聯合組建,以聯機信息檢索服務爲其主要任務。北京文獻服務處計算機信息檢索系統(BDSIRS)建於1981年,是目前國內系統配置最大、信息量最多的現代化科技信息檢索系統之一,現有各種數據庫20多種,文獻量逾2200萬篇,聯機終端200多個,遍及全國60多個城市。數據庫內容涉及自然科學的各個方面,擁有世界著名的《國外專利文獻數據庫》,即《世界專利索引》)、《美國政府研究報告文摘數據庫》、《國外期刊論文文摘數據庫》,即《科學文摘》)、《國防科技文獻》、《中國經濟信息數據庫》、《中國化學文摘庫》等。
72、光盤檢索系統的含義及構成
光盤檢索系統即利用光盤驅動器和光盤數據庫及其檢索軟件,結合計算機建立起來的信息檢索系統。光盤檢索系統的構成包括硬件和軟件兩部分。硬件指計算機、光盤驅動器(單盤式和多盤式)和光盤。計算機是檢索的處理中心,光盤驅動器有單盤式和多盤式之分,單盤式驅動器只能一次放置一張光盤,多盤式驅動器可同時放置多張光盤,而且讀取光盤的速度也很快。光盤是指存儲有數據的光盤數據庫。軟件指檢索軟件,有的檢索軟件隨光盤數據庫存儲在同一張光盤上,有的檢索軟件單獨出版或發行。
73、光盤檢索系統的類型
光盤檢索系統依據服務用戶的數量,可以分爲單機光盤檢索系統和網絡光盤檢索系統。
(1)單機光盤檢索系統:單機光盤檢索系統指由一臺計算機、一個或多個光盤驅動器以及光盤數據庫構成,只能供一個用戶檢索的光盤檢索系統。單機光盤檢索系統操作簡單,使用方便,但不適合多用戶使用,侷限性較大。在開展光盤檢索的初期,使用的都是單機光盤檢索系統。隨着數據庫產業的發展,信息資源數字化進程的加快,光盤數據庫日益增多,除了信息機構所提供的單機光盤檢索系統,一些個人也開始購買部分光盤數據庫,在自己的計算機上使用。比如,《中國大百科全書》電子版作爲一個光盤全文數據庫走進了千家萬戶。
(2)網絡光盤檢索系統:網絡光盤檢索系統指能夠在局域網上乃至互聯網上共享的光盤檢索系統,它能夠同時爲多個用戶提供檢索服務。這種光盤檢索系統的出現是與網絡技術發展密切聯繫在一起的。網絡光盤檢索系統既擁有光盤數據庫數據量大、準確權威的特點,又同網絡技術的優勢很好地結合在一起,能滿足多個用戶的信息查詢需求,逐漸成爲信息機構檢索系統的一種重要資源。光盤網絡共享設備是核心,它主要包括三種:光盤庫、光盤塔和光盤鏡像服務器。
74、光盤檢索系統的特點
①光盤檢索系統是一個獨立的計算機檢索系統,受外界的影響較小,在整個檢索過程中幾乎不涉及遠程通信網絡問題,因而,光盤檢索系統沒有國際聯機所常有的通信線路不暢,通信費用高等不利因素,而且光盤檢索的運行速度一般比網絡檢索速度快。
②光盤檢索系統具有計算機檢索的強大優勢,軟件功能比較齊全,通常具有布爾邏輯檢索、截詞、字段限定、位置檢索等功能,操作簡單易學。此外,光盤檢索還允許用戶方便地將檢索結果套錄於某一存儲介質上,形成某一專題數據庫。
③光盤檢索系統費用是一次性投入,使用時間一般不受限制,用戶可以通過反覆實踐,充分利用光盤檢索系統提供的各種檢索功能,提高檢索效率,獲得滿意結果。
④光盤檢索系統相對於網絡檢索來說,雖然沒有網絡搜索引擎的數據量大,但其數據準確。查全率和查準率遠勝於網絡檢索。
⑤光盤數據庫與聯機數據庫相比,存在着更新速度慢、數據容量小、專業範圍窄、檢索時需要不斷換盤等缺點。
75、光盤檢索的服務方式
(1)回溯檢索:提供光盤檢索服務的信息服務機構所訂購的光盤數據庫一般是連續的、定期更新的,因此可進行回溯檢索。
(2)定題服務:光盤數據庫一般定期更新,並且光盤檢索系統能夠長期存儲用戶的檢索需求和重新執行用戶的檢索策略,因此,可以提供近似的定題服務。
(3)專題檢索服務:是光盤檢索系統提供的最典型的服務方式,用戶可就自己感興趣的某一專門進行連續多次的檢索。
(4)套錄子庫:光盤檢索系統提供了套錄檢索結果的功能,即允許用戶將檢索結果套錄於某一存儲介質上,形成某一專題的數據庫,供以後使用。
76、我國光盤數據庫的發展
20世紀70年代末期,我國開始了光盤的研製工作。1986年,上海市激光研究所成功地研製出了第一套光盤錄放系統。同在1986年, 國家海洋局情報所首次引進了國外光盤數據庫ASFA和LSA,拉開了國內信息機構引進國外光盤數據庫的序幕。利用這些引進的光盤數據庫爲用戶提供信息檢索服務,爲科研提供定題服務、查新服務和回溯檢索服務。這些數據庫專業覆蓋面大,檢索速度快,查找方便,檢索費用低,受到了廣大用戶和信息機構的歡迎。另外,光盤檢索還成爲檢驗檢索式是否合理的一種手段,存儲的檢索式可以在聯機檢索中直接調用,可以在很大程度上節省聯機檢索的時間和經費。1994年,我國自行開發和研製了包括6000多種科技期刊的《中國科技文獻數據庫》光盤版。1996年,創辦了我國第一部大規模集成化學術期刊全文光盤數據庫《中國學術期刊》。
在網絡環境下,光盤網絡得到繼續發展。全文光盤數據庫是一個發展方向。隨着資源數字化進程的加快,越來越多的全文數據庫開始出現,主要有電子圖書類、政府文件與政府報告類、法律法規類、期刊雜誌類、新聞資料類等。光盤數據庫在網絡檢索衝擊下將轉向網絡平臺,一些光盤檢索系統在保留原光盤形式的基礎上,升級爲網絡數據庫。光盤數據庫的出現,曾給計算機檢索帶來了巨大的影響,改變了我國計算機檢索當時只有聯機檢索的單一模式。而Internet的出現,對光盤數據庫發展也同樣產生了深刻的影響,原來一些著名的光盤數據庫紛紛推出了網絡版的Web檢索,如《中國學術期刊》(光盤版)同時升級爲中國期刊網全文數據庫,網絡數據庫比原來的光盤數據庫界面更加友好,數據庫更新頻率更快,檢索功能更加全面,因而受到了歡迎。
77、主要光盤數據庫選介
①《複印報刊資料》全文數據庫
中國人民大學書報資料中心編選的《複印報刊資料》全文,以其涵蓋面廣,信息量大,分類科學,篩選嚴謹,結構合理完備,成爲國內權威的社會科學、人文科學專題文獻資料寶庫。它具有大型、集中、系統、連接和靈活五大特點。該數據庫是紙本《複印報刊資料》的電子版,《複印報刊資料》一直是我國人文社會科學方面的重要資料彙集,被公認爲國家級權威刊物,具有較高的社會價值和學術價值。
《複印報刊資料》特聘請著名專家、教授直接進行編輯審校工作,從根本上保證了入選文獻的學術質量。同時,該刊全文收錄的文章來自於全國範圍內衆多報刊,入選文章多事學術價值大、質量高、觀點新穎、見解獨到的重要文獻。從1995年開始,100多個專題,每年分馬列、哲學、社科總論、政治、法律一張盤,經濟一張盤,文化、教育、體育一張盤,語言、文學、藝術、歷史、地理及其他一張盤。從1997年開始,按季度彙集100多個專題全文於一張光盤內,全年共4張光盤,可以按專題類別提供服務。年末再將全年內容按類出版四張光盤。目前,該數據庫也退出了它的Web版,更加方便利用。
《複印報刊資料》全文數據庫光盤檢索步驟如下:①確定查詢類別,選擇數據庫;②輸入檢索條件,進行檢索;③檢索結果顯示;④檢索結果的處理。
中國人民大學書報資料中心作爲人文社科資料的信息中心,還推出了一系列其他光盤數據庫產品。其中,重要的有《中國人民大學書報資料中心複印報刊資料索引光盤(A、B)》,《複印報刊資料專題目錄索引》、《複印報刊資料文摘數據庫》等。
②《中文科學期刊篇名數據庫》
《中文科技期刊篇名數據庫》由中國科技信息所重慶分所下屬的維普資訊研製。該數據庫以全爲特色,收錄的科技期刊能代表我國出版科技期刊的整體水平,而且每種期刊幾乎沒有人爲的選擇過程,均逐篇、逐期、逐年收入數據庫。該數據庫數據量大、數據更新及時、檢索方式簡單易行、檢索結果準確快捷。本庫提供《中圖法》分類號、主題詞、著者及題名檢索點,並可進行邏輯組配和年代限定。數據庫每季度更新一次,年均文獻報道量達28萬餘條。
《中文科技期刊篇名數據庫》是目前國內數據量最大的綜合性文獻數據庫,收錄數據量大,覆蓋領域廣泛。從2000年起,該數據庫將收錄範圍擴大爲包括社會科學在內的各學科期刊,並更名爲《中文科技期刊數據庫》。同時,開始增加收錄數據的全文,從一個題錄數據庫提升爲全文數據庫,並開始基於萬維網的檢索服務,成爲我國目前最重要的三大期刊全文數據庫之一。
《中文科技期刊篇名數據庫》光盤檢索步驟如下:①選擇光盤數據庫;②選擇檢索方式,進行檢索。該數據庫提供三種檢索方式,即字段檢索、字典檢索和組配檢索。③檢索結果的顯示。系統提供兩種顯示格式,完整記錄和摘要列表。④檢索結果的處理。系統允許用戶對檢索結果進行存盤或打印。
③《中國科學引文數據庫》
《中國科學引文數據庫》是一個集多種檢索功能爲一體的文獻數據庫。由國家自然科學基金委員會和中國科學院共同資助,中國科學院文獻情報中心承建開發,該系統全面參照美國SCI的編制體系,是我國目前收集被引文獻最多的電子出版物。該庫目前已積累了1989—1998年的數據,共收錄我國出版的中啊喲的中英文科技期刊近600種,其學科範圍涉及數、理、化、生、地、農、林、醫學、工程技術等領域。《中國科學引文數據庫》可查詢專著、期刊論文、會議文獻、專利和其他非正式出版物的被引用情況;可查詢科技期刊被引情況;可查詢論文發表情況;可查詢專題文獻。
該系統提供的數據如實地反映了來源文章的論文題名、著者、著者機構及其所在地區、受基金資助情況以及文章出處,並詳細提供被引文獻中,中國人在國內外發表及外國人在中國發表的文獻的第一著者、被引文獻名稱、出版年、卷、期、頁及文獻類型等信息,準確報道來源文章與被引文獻之間的關係。
《中國科學引文數據庫》光盤檢索步驟如下:①打開數據庫;②選擇檢索方式,進行檢索。該庫提供了兩種檢索方式,即字典檢索和命令檢索。③檢索結果的顯示和處理。該庫提供四種顯示格式,即瀏覽格式、題錄格式、綜合格式和引文格式。
④《中文社科報刊篇名數據庫》:該庫是由文化部立項、上海圖書館承建的重大科技項目,由上海圖書館全國報刊索引編輯部負責編輯和研製,具有文獻信息量大、檢索點多、查檢速度快等特點。本數據庫收錄了全國哲學社會科學期刊6000多種,報紙200餘種。條目收錄採用核心期刊全收、非核心期刊選收的原則,現年更新量約20餘萬條,爲目前國內特大型文獻數據庫之一。它是國內比較有影響的、較爲完整系統的社會科學光盤數據庫,是紙本《全國報刊索引》的電子時代新的發展,檢索功能比較全面,操作便捷,深受用戶歡迎。目前已升級爲網絡數據庫。
⑤《四庫全書》數據庫:以《景印文淵閣四庫全書》爲底本,由上海人民出版社、香港迪志文化出版有限公司和書同文數字化技術有限公司聯合開發。它分爲標題檢索版和全文檢索版兩種,每一種版本又分爲網絡版和單機版,全文版約181張光盤,標題版爲165張數據光盤。全文版的檢索功能較爲完善,可以從全文、分類、書名和著者等途徑進行檢索。除了可以幫助用戶迅速查到所需的字、詞、書、篇目或作者資料外,還可以隨時跳轉使用。
⑥《四部叢刊》數據庫:《四部叢刊》是文史工作者經常使用的一部重要典籍。該書由學者、出版家張元濟先生彙集多種中國古籍經典而撰成。本數據庫由北京書同文數字化技術有限公司開發,採用掃描技術,重現原書面貌,並在卷首詳細記錄原版寬窄大小。《四部叢刊》電子版保有紙張版本的全部內容,實現了全文檢索,特徵檢索,擇要筆記,紀元換算以及簡、繁、異體漢字相互關聯查詢功能。檢索途徑有:書名檢索、著者檢索、全文檢索和分類檢索。《四部叢刊》電子版分爲局域網絡版、國際互聯網絡版以及單機版,光盤全套共計24張(不含聯機字典)。
⑦《中西文期刊聯合目錄數據庫》:是全國性的連續出版物聯合目錄數據庫,依靠先進的信息存取和網絡通信技術,同時配合一次信息服務來達到全國範圍的連續出版物資源共享,全方位滿足不同層次的用戶需求;爲全國範圍的連續出版物訂購協調提供依據,促進我國外文連續出版物總引入量的提高;推動圖書館工作的自動化和標準化。該數據庫報道200多家圖書情報單位收藏的中西文期刊4.5萬種,收錄的單位遍及中國科學院全院和北京地區各大圖書情報單位以及國內一些大的圖書情報單位。數據庫中數據的著錄按照ISBD(S)記憶有關國家標準和國際標準,機讀格式按照UNIMARC格式和CNMARC格式。
⑧Arts & Humanities Citation Index (A & HCI):A & HCI是藝術與人文科學方面期刊文獻的多學科的索引光盤,它完整地收錄了25個學科的1100多種期刊,還包括ISI各個數據庫中有關藝術與人文科學方面的其他7000種期刊的內容,設計各個藝術領域,還有人文科學的各個方面。該數據庫可按被引作者、被引文獻等途徑進行檢索。每年增加10萬條新紀錄。
⑨SSCI:收錄了全球1400種主要的社會科學期刊全文,共涉及50個學科領域。本數據庫每年平均增加12.5萬條記錄,它除了能檢索文章被引用的情況外,同進還可以提示原文中所有的參考文獻,並據此獲得一批相關文獻。因此,它是人文及社會科學研究領域的最有效並最具有權威性的參考工具書之一。
78、網絡信息資源的含義
網絡信息資源指可在互聯網上發佈、查詢與存取利用的信息資源的總和。它包括在互聯網這個平臺上可以獲得的一切信息資源,如數據庫、電子圖書、電子期刊等。
79、網絡信息資源的特點
(1)優勢
網絡信息資源突破了以紙張或其他實物介質爲載體的傳統信息資源的限制,將大數量、多類型、多媒體、非規範的信息整合爲數字化形式,在計算機或計算機網絡上方便的存儲、檢索、處理、傳遞和加工,進而從根本上改變了原始信息的生產、採集和提供傳遞的模式,實現信息表達和傳輸的質的飛躍。一般而言,網絡信息資源是信息資源的一種,它與傳統形式的信息資源相比,不同之處表現在其記錄載體、表達形式以及傳播手段等方面,其中最顯示特徵是以數字化形式分佈存儲於網絡節點中。與傳統的信息資源一樣,網絡信息資源涉及人們的生產、生活以及社會生活的其他各個方面,它是隨着社會的發展而不斷積累起來的,同時它也顯現出許多新的特點,主要表現爲:
①數量巨大,增長迅速:海量是網絡信息資源的一個重要特點。互聯網是一個基於TCP/IP協議聯結各國、各機構成千上萬計算機網絡的通信網,是一個超級巨大的信息資源網,由於政府、機構、企業和個人都可以在網上發佈信息,因此它成爲無所不有的龐雜信息源。
②內容豐富,形式多樣:網絡信息資源浩如煙海,包羅萬象,涵蓋了幾乎所有的人類社會生活領域,覆蓋了不同學科、不同領域、不同語言。網絡信息資源種類繁多,除了文本信息外,還包括了大量圖像、音頻、視頻、軟件、數據庫等非文本信息,呈現出多類型、多媒體、非規範、跨地區、跨語種等特徵。
③結構複雜,分佈廣泛:網絡信息資源本身無統一的標準和規範,信息廣泛分佈在不同地區的服務器上,服務器有不同的操作系統、數據結構、字符集等。傳統信息資源相對結構比較簡單,而網絡半結構化數據日趨豐富。網絡信息資源分佈在全球互聯網的服務器上,從未有過其他任何資源能像網絡資源這樣有如此廣泛的分佈,跨越了地理空間的限制。
④開放互動,共享性強:開放性是互聯網的特徵之一,網絡具有一個開放的環境,讀者可以共享來自全球的各種各樣的信息資源,同時可以把自己擁有的資源通過網絡傳輸出去。網絡信息資源具有高度共享性。也使得它能在更高水平上實現有效的配置。在網絡環境下,時間和空間範圍得到了最大程度的延伸和擴展。交互性也是網絡信息資源的又一特點,具體體現在它具有主動性、參與性、交談性和操作性。
⑤傳播快速,利用方便:互聯網提供了輻射全球範圍的高速信息資源傳輸通道,它解決了信息傳輸延遲所導致的信息滯後,使信息資源能更加快捷地分配到各種應用領域中,跨越了時間和空間的限制,傳播速度極快,從而實現了信息的價值。
⑥更新速度快,動態性強:變化是互聯網永恆的主題,網絡信息資源也充分體現了這一特色。網絡信息資源本身就是一個動態系統,具有很強的時效性,更新頻率很快。網絡信息資源不僅增長迅速,而且變化也極爲頻繁。網絡信息具有高度動態性,任何網絡信息資源都有可能在短時間內建立、更新、更換地址或消失,這使得網上的信息資源瞬息萬變。
⑦信息使用成本低:在互聯網上,大部分信息資源都可免費使用,用戶所要支付的主要是網絡通信費用。廉價的網絡信息資源有效地刺激了用戶對信息的需求,從信息需要的角度也拉動了網絡信息資源有效,合同的配置。
(2)不足
①質量參差不齊,良莠不一:由於互聯網是一個開放性網絡,網絡接入者在存儲和發佈信息進有很大的自由度。分佈式存儲成爲網絡環境中信息資源存在的主要形式。這必然導致大量冗餘、粗製濫造甚至虛假的信息在網絡上迅速傳輸、膨脹。信息資源質量的良莠不齊也給網絡用戶對有用信息的擇取帶來很大不便。
②分散無序,缺乏管理:海量的信息資源,沒有任何有效管理和控制的機制,顯現出明顯的分散無序的特徵。目前,對網絡信息資源的管理主要來自兩個方面:一是依賴於人工編制的主題目錄,二是依賴於自動技術,但都存在一定的問題,對於網絡信息資源的控制幾乎沒有實質性的進展。
③穩定性差,精確度低,缺乏安全保障:信息資源的更新、消亡無法預測和控制,缺乏穩定性。由於沒有統一的經營管理機構,統一的發佈標準,信息編排混亂,針對某一主題的查找結果往往不夠精確、不夠全面,不能滿足信息用戶安全、重複使用信息的要求。此外,網絡信息產生和傳遞自由程度很高,因而必然帶來諸如信息安全、網絡安全等一系列問題,版權保護、隱私保護等缺乏必要的管理和法律制約措施。
80、網絡信息資源的類型
網絡信息資源數量龐大,內容繁雜,形式多樣,廣泛分佈在整個網絡之中。沒有統一的組織管理機構,也沒有統一的目錄。對網絡信息資源進行分類,有助於我們深入地瞭解網絡信息資源。依據不同的劃分標準,可以對網絡信息資源做出如下的分類:
①按網絡信息資源的媒體形式分,可分爲文本信息、圖片信息、音頻信息、視頻信息、三維虛擬影像信息。
②按人類信息交流的方式劃分,可分爲正式出版信息、半正式出版信息和非正式出版信息。
③按照信息的加工程度劃分,可分爲一次網絡信息資源、二次網絡信息資源、三次網絡信息資源。
④按照網絡信息的內容和用途來劃分,可分爲普通型、專門資料型、數據資料型和即時資料型。
⑤按照信息的表現形式劃分,可分爲全文型、數值型、書目文獻型和實時活動型。
⑥按照傳輸協議的不同,可分爲WWW信息資源、TELNET信息資源、FTP信息資源、網絡論壇和Gopher信息資源。
81、網絡信息資源的分佈
(1)網絡信息資源的分佈情況
瞭解目前網絡信息資源的分佈情況,加快和擴大網絡信息資源開發利用的進度和規模,利用信息網絡共享信息資源,彌補目前普遍面臨的信息資源短缺的問題,已經迫在眉睫。互聯網已成爲全世界最大的信息資源庫,網絡信息資源可謂浩瀚無邊,內容涉及各個方面。
①政府信息:政府信息是一切產生於政府內部、或雖然產生於政府外部但對政府活動有影響的信息資源的統稱。政府網絡信息資源與其他內容的網絡信息資源相比,具有權威、可靠、質量高等特點,成爲互聯網上最重要的網絡信息資源之一。
②教育科研信息:主要指各高等學校、科研機構和其他專業學術機構的相關網絡信息資源。終身教育已經成爲當代教育的重要理念,而互聯網則成爲人們獲取知識,瞭解相關教育信息和科研信息的重要工具。
③網上出版物:是指在網絡環境中編輯、出版、發行的出版物以及印刷型出版物的網絡版。相關技術的發展使網絡出版物的數量正急劇增加,內容更涉及方方面面。互聯網所具有的的交互性,爲編輯與作者之間,作者與讀者之間的信息交流和溝通提供了方便。
④網絡數據庫:是網絡信息資源中數據質量最高 、學術性最強的信息資源,是學術性用戶使用最爲頻繁的網絡信息資源。分爲收費數據庫和免費數據庫。
⑤電子論壇和電子會議:通過電子論壇,用戶可從中獲得任何其他手段都難以獲得的第一手重要專題信息和資料。它是研究人員及時瞭解跟蹤學科動態與前沿的最有效途徑之一,可消除印刷出版物時間滯後的缺點。電子論壇的另一功能是舉辦國際電子會議。
⑥網上專利信息:網上的專利信息資源主要分佈在:聯機檢索系統中的專利數據庫;專利管理機構網絡提供的信息;數據庫出版機構提供的信息。
(2)網絡信息資源的分佈特徵
①離散性:網絡信息資源的類型非常龐雜。信息發佈內容具有很大的自由性和任意性,由於缺乏必要的過濾、質量控制和管理機制,不僅學術信息、商業信息、政府信息、個人信息混爲一體,而且大量不健康信息也得以擴散,引發了許多方面的問題。這些顯示網絡信息資源的分散性和無序性,使用戶面對眼花繚亂的信息無所適從,不知道如何尋找自己需要的信息資源。
②不均衡性:主要表現在地區分佈和語言分佈等方面。信息資源分佈基本上反映出該地區經濟、文化等方面的發展水平,從全球範圍來說,以美國爲首的西方發達國家發展水平大大高於發展中國家,而從我國的情況來看,東部地區的發展水平高於西部地區。網絡上中文信息的貧乏,也已成爲一個現實問題。
82、網絡信息檢索的含義與特點 【傳統信息檢索與現代信息檢索的比較(看 黃媛 論文)】
網絡信息檢索指通過一定的方法,從已存儲的網絡信息中查找與用戶提問相關的信息的過程。它是計算機檢索的發展和延伸,是一種基於互聯網的新型的信息檢索方式。網絡信息檢索是對傳統信息檢索的重大變革,尤其是萬維網的出現,打破了傳統的線性信息組織方式,創立了超文本超媒體的信息組織方式。與傳統信息檢索相比,呈現出新的特點。
(1)檢索的對象得到了極大的豐富:傳統的信息檢索的主體是文獻檢索,網絡環境下信息資源組成體系發生了變化,網絡資源在內容和形式上均較傳統的資源豐富了許多。信息量更大,信息形式更加多樣,不僅包括目錄、索引和全文等文本型信息,還包括聲音、圖像、影像等多媒體信息。在單機環境下,由於受硬件資源的影響,文檔數據庫的數據量受到一定限制,隨着互聯網的發展,特別是WEB服務器的出現,可共享的網絡信息資源越來越多。此外,傳統的信息檢索系統幾乎都是基於單語言環境,而網絡信息檢索使用不同的自然語言描述各種信息,形成了不同語種的信息檢索系統。
(2)檢索的空間得到了極大的擴展:傳統的信息檢索在很大程度上受到了地域空間的限制,而現代網絡信息檢索衝破了傳統的空間的侷限性,大大擴展了檢索空間,其檢索範圍覆蓋了整個互聯網這一全球性的網絡。
(3)檢索趨於簡單方便:網絡信息檢索一改以往的信息檢索專業性較強的特點,以簡單方便的檢索方式贏得了廣大用戶的歡迎。網絡信息檢索在用戶檢索界面、檢索結果提供方式等方面都體現了良好的交互性,具有較好的信息反饋功能。此外,自然語言在網絡檢索中的廣泛應用,使用網絡檢索變得日益簡潔,與之相關的檢索交互性也進一步提高。
網絡檢索雖然具有以上所提到的諸多優勢,但與其他類型的計算機檢索形式相比,也存在一些不足,主要表現在以下幾個方面:
(1)信息查準率比較低:網絡用戶表達的需求與獲取的檢索結果往往相差很大,尤其是學術性信息的查詢。儘管不同的搜索引擎涵蓋範圍不同,檢索結果不同,但真正符合用戶需要的信息卻不多。
(2)檢索帶有一定的盲目性:超文本一方面使得網絡信息檢索獨具特色,利用方便,另一方面,也引起了一定的負效應。網絡信息以超文本鏈接,用戶從一個檢索點入口,整個搜索過程幾乎由網絡的超鏈接所控制,處於一種失控、無方向的狀態。用戶信息需求檢索的主動性變爲了被動性,一旦進入鏈接的“死區”(鏈接點的歷史變動或網路堵塞),就會影響檢索效率。
(3)各種檢索工具的檢索方法不統一,造成了用戶使用的不方便:各種網絡檢索工具使用的檢索符號和檢索方式不統一,在檢索式的組成上,不同的檢索工具也有不同的要求,給用戶進行網絡檢索帶來了麻煩。
83、網絡信息檢索原理
當前的網絡信息通信多采用客戶端/服務器的結構。在這種網絡通信結構下,用戶首先向客戶端的應用程序發出數據請求,接着應用程序通過客戶端跨越網絡向相應的網絡服務器傳遞有關的數據請求。網絡服務器在接到有關請求之後,從相應的數據庫或其他存儲介質中獲得有關數據,再把其數據返回到客戶端,最後通過相應的用戶界面應用程序把有關結果以特定形式呈現給用戶。如今通常使用網絡瀏覽器作爲網絡信息檢索客戶端的工具,它提供良好的用戶界面,同時作爲通用的基於萬維網協議HTTP的網絡客戶端。
在網頁檢索的過程中,一般分爲兩級模式,第一級是通過關鍵字找到與該關鍵字相關的網站地址,第二級是在某個具體的網站中通過關鍵字找到與該關鍵字相關的網頁。目前網絡信息檢索模型多采用布爾檢索模型和向量空間模型。
84、網絡信息檢索方法
在互聯網上查找信息,主要是要找到提供信息源的服務器。也就是說,首先以找到各個服務器在網上的地址URL爲目標,然後通過該地址去訪問服務器提供的信息。在網上檢索信息資源的基本方法如下:
(1)直接瀏覽——網址查詢:如果用戶要訪問已知地址的信息資源,可以在瀏覽器地址欄中輸入已知的網站或網頁地址,直接進行瀏覽,這是一種最常見最有效的信息資源的獲取方式。直接按網址進行查詢的方法簡單高效,但獲得的網絡信息資源僅是滄海一粟,能夠通過這種方法獲得的信息非常有限。
(2)利用網絡資源目錄:網絡資源目錄可以分爲兩大類:一類是網絡檢索工具的分類目錄,一類是各個信息機構整理編制的信息導航。這種信息查詢方式簡便易行,用戶不需要經過專門的培訓,就可以輕鬆地利用萬維網的超文本技術瀏覽和獲取網上的信息資源,但需要用戶平時注意對資源目錄的熟悉與瞭解。
(3)利用以關鍵詞檢索爲主的搜索引擎:這是獲得網絡信息資源最爲常規和普遍的方法。搜索引擎作爲主要的網絡檢索工具,在網絡信息資源的檢索中具有重要的地位,突出的是檢索功能。利用搜索引擎進行檢索省時省力,簡單方便,檢索速度快,範圍廣,能及時獲得新增信息,比較適合用戶從關鍵詞的途徑獲取信息。
(4)查詢網絡文獻數據庫:訪問網絡數據庫是用戶獲取學術性信息的最有效的方法,尤其是全文數據庫的迅速發展,爲用戶直接獲取原始文獻提供了便捷的途徑。網絡數據庫檢索功能較爲完善,在網絡數據庫的檢索過程中,能否構造一個完整的檢索式對於提高檢索結果的查準率和查全率都有很大的影響。這就要求信息機構加大用戶培訓的力度,使花巨資購買的網絡數據庫資源得到充分的利用,滿足用戶查詢網絡數據庫的信息需求。
(5)查詢網上圖書館:網上圖書館是查詢網絡信息資源的又一重要途徑。對於信息資源的用戶而言,網上圖書館的主要資源有三種:一是聯機公共檢索目錄,二是圖書館工作人員通過收集整理組織網上資源而形成的學科信息資源導航,三是圖書館購買的各種商業數據庫。長期以來,圖書館被稱爲文獻信息中心,在互聯網上,圖書館依然是網絡信息的集散地,用戶可以充分利用網上圖書館獲得自己所需的信息資源。
以上所提到的5種檢索方法,可以歸結爲兩種檢索模式,即超文本的瀏覽模式和關鍵詞的查找模式。超文本的瀏覽模式以知識分類爲基礎,是網絡資源目錄的具體使用,可以滿足用戶的族性檢索需要。關鍵詞的查找模式是網絡信息檢索中最常用的方法,在很大程度上,主要是針對用戶的特性檢索需要,即輸入檢索詞以及各檢索詞之間的邏輯關係,然後檢索軟件根據輸入信息在索引庫中搜索,獲得檢索結果並輸出給用戶。不同的檢索服務可能有不同的界面,不同的側重內容,但有一點是共同的,就是其龐大的索引數據庫。
85、網絡信息檢索相關標準
(一)網絡信息檢索標準Z39.50
Z39.50是一種Client/Server體系結構下描述客戶端檢索服務器上數據以及獲得檢索結果的數據結構與交互規則的協議,是網絡中的應用層協議,定義了客戶端與服務器之間數據交換標準。
Z39.50的主要目的在於定義基於客戶端/服務器體系結構的數據庫的查詢與檢索的語法,從而使一套存取標準適用於異構系統的數據。Z39.50是國際通用的信息檢索協議,是一個相當成熟的標準。Z39.50的大量應用在一定程度上幫助解決了網上信息的無序和難以檢索的問題,爲網絡中的異構平臺和異構系統之間的信息檢索和傳輸提供了條件,實現了與其他具有標準接口的系統之間的數據訪問,爲信息資源共享提供了新的途徑。
雖然Z39.50協議從制定之初到後來的幾經修訂已有三版,但是實際中的實現效果卻不甚理想,究其原因,一方面是計算機技術發展的各種因素,另一方面是Z39.50協議自身實現的內在原因。作爲一個開放系統互連的標準集,Z39.50的主要問題和實現的最大障礙是其定義的協議數據結構稍顯簡單。其次,Z39.50標準所採用的編碼標準是在20世紀80年代發展起來的一種成熟標準,對很多數據庫應用軟件設計者來說,平時甚少涉及甚至無法看懂相關標準文獻的含義,使很多圖書館應用軟件開發者或提供商面臨着技術上的挑戰,或面臨產品開發項目的投資風險。最後,Z39.50標準是建立在一種比較專門的通信協議的基礎上,增加了這個標準的實施中的技術複雜性。
(2)其他網絡信息檢索標準
實現信息源互聯互操作的協議主要有兩類。一類爲重量級協議,如在圖書館界有較大影響的Z39.50協議,這些協議本身較複雜,往往要求在字段級實現互操作。一類爲輕量級協議如OAI等,這些協議一般作爲一些應用協議的基礎。由於Z39.50存在着諸多的不足,促使了新的網絡信息檢索標準的製作和使用,目前正在使用或處於研究探討的網絡信息檢索標準還有一些,如:OAI、OpenURL、X.500、LDAP。
86、網絡信息檢索發展趨勢
由於現代信息通信技術的發展,網絡信息檢索技術的軟硬件環境有了很大改善,信息檢索服務功能的不斷完善,網絡用戶對網絡信息檢索的需求,這些都極大地推動了網絡信息檢索的發展。網絡信息檢索的發展主要體現在智能檢索技術、知識檢索技術、多媒體檢索技術、新一代搜索引擎技術、自然語言檢索技術和基於內容的檢索技術。在以用戶爲中心的思想指導下,網絡信息檢索服務呈現出個性化、多樣化特點。
(1)網絡信息檢索技術發展
①智能檢索技術:智能化信息檢索是基於自然語言處理的檢索形式,它可以模擬人腦的思維方式,分析用戶以自然語言表達的檢索請求,自動形成檢索策略,進行智能、快速、高效的信息檢索。智能檢索技術主要體現在語義理解、知識管理和知識檢索三個方面。
②多媒體檢索技術:從基於文本的方式開始,多媒體信息檢索至今已發展成熟,但是在大量的多媒體信息檢索環境中還是支持不夠。多媒體檢索技術包括基於描述的多媒體檢索和基於內容的多媒體檢索。
③P2P檢索技術:是一種用於不同PC用戶之間,不經過中介設備直接交換數據或服務的技術,它允許網絡用戶直接使用對方的文件。P2P模式基於分佈式共享技術,它使互聯網上每臺計算機都有可能成爲信息資源提供者。
④可視化檢索技術:實質是提供一種可視的語義關係,使提問與檢索結果以及檢索到的各文獻之間的關係可視化。可視化信息檢索包括兩方面,即檢索過程的可視化和檢索結果可視化。
⑤語義檢索技術:語義檢索技術也稱爲概念檢索技術,它不是傳統意義上的關鍵詞的字面匹配,而是從詞所表達的概念意義層次上來認識和處理用戶的檢索請求。語義檢索主要包括兩方面:同義詞擴展檢索和相關概念聯想。
(2)網絡信息檢索服務發展
①多樣化信息檢索服務:包括檢索多樣化信息形態、多樣化檢索語種、服務功能多樣化和本地化和一站式服務。信息檢索形態的多樣化是指不僅可以檢索到不同格式的文本文檔,而且也可以檢索到聲音、圖像、動畫等多媒體性文件。很多網站都不斷增加多種類型的搜索文件。使用某一種語言直接進行多語種檢索,並提供多語種的匹配結果是多語種檢索服務的發展方向。網絡信息檢索服務多樣化還表現爲信息檢索系統應該具有多方面的功能,包括導向功能、評價功能和文化積累功能等。一站式服務是信息檢索服務多樣化的又一體現。一站式信息檢索服務是指用戶通過一個檢索工具能滿足自己所有的信息檢索需求。一站式信息檢索是未來信息檢索服務的一種發展模式。
②個性化信息檢索服務:是針對不同用戶,採用不同服務策略的方式,提供不同信息內容的服務。它具有以用戶爲中心、對用戶需求進行挖掘、靈活多樣和主動將信息推送給用戶的特點。個性化服務主要有三種形式:個性化推薦、個性化網站和個性化信息檢索。
(3)網絡信息檢索標準發展
研究網絡環境下異構信息檢索的標準體系成爲當前信息檢索領域的一個研究熱點。標準的網絡語言、網絡符號和網絡輸出顯示方式,會使網絡信息的傳播更加方便、快捷,有利於被用戶接受與利用,實現信息資源共享。網絡信息檢索標準的易用性和靈活性十分重要。網絡信息檢索標準準則是一個不斷髮展的、動態的複雜系。應進一步簡化檢索標準,使得其更加靈活和可擴展。同時,標準國際化是網絡信息檢索標準化發展的必然趨勢,特別是我國已經加入世貿組織,參加國際經濟大體系,進入國際經濟大循環,更需要我們遵循國際標準,採用國際標準。
87、網絡信息檢索工具
(1)網絡信息檢索工具的含義和發展
網絡信息檢索工具是指在互聯網上提供信息檢索服務的信息檢索系統。如搜尋FTP資源的Archie,檢索Gopher網站資源的Veronica和Jughead等,近年來廣爲流行的Yahoo、Alta Vista等Web檢索工具等。網絡信息檢索工具的檢索對象是存在於互聯網信息空間的各種類型的網絡信息資源。在互聯網的發展過程中,先後產生了Archie、Gopher、WAIS及Search Engine等檢索工具。
(2)網絡信息檢索工具的類型
網絡信息檢索工具按照不同的劃分方法,可分爲許多不同的類型。
①按索引方式劃分,可分爲目錄型檢索工具和索引型檢索工具。
目錄型檢索工具,又稱網絡資源目錄或主題指南,主要採用人工或機器搜索信息,由人工對搜索的信息進行甄別、分類、加工,建立分類導航或分類編排網站目錄,提供分類瀏覽的工具。這類檢索工具如Sohu、Yahoo!等。
索引型檢索工具,又稱搜索引擎,主要採用搜索軟件自動搜索信息,建立網頁信息索引庫,提供全文檢索,用戶在檢索框中輸入關鍵詞或詞組進行檢索。這類檢索工具如Google、Alta Vista、天網等,目前的搜索引擎從能上和檢索效果上都在努力接近傳統大型商業性聯機檢索系統,已逐漸成爲網絡信息檢索的主要工具。
隨着網絡檢索工具的發展,現在的網絡檢索工具大多都提供分類檢索和關鍵詞檢索兩種方式,只不過各檢索工具的側重點不同,因此目錄型檢索工具和索引型檢索工具的界限也越來越模糊,大多數流行的網絡檢索工具同時提供兩種方式的檢索,既提供主題指南又有索引功能的混合型型檢索工具是當今網絡檢索工具發展的主流和趨勢。
②按檢索時搜索的檢索工具數量劃分,可以分爲獨立型檢索工具和集合型檢索工具。
獨立型檢索工具,也稱單一檢索工具,它擁有自己的索引數據庫,提供基於自身索引的查詢服務,如Sohu、Yahoo!、Google等。
集合型檢索工具是多個獨立型檢索工具的組合,也稱多元搜索引擎、元搜索引擎,可以同時利用多個網絡檢索工具進行網絡信息查詢。如Dogpile、萬維、Profusion等。
③按檢索網絡資源的類型劃分,可分爲WEB資源檢索工具和非WEB資源檢索工具。
WEB資源檢索工具是指利用超文本技術在互聯網上建立的一種提供網上信息資源導航、檢索服務的專門WEB服務器或網站。Web檢索工具已成爲我們獲取互聯網信息資源的主要檢索工具和手段,幾乎成了網絡檢索工具的代名詞。Web檢索工具多種多樣,大致分爲三類:搜索引擎、目錄型檢索工具、元搜索引擎。
非WEB資源檢索工具是查找網上非WEB資源,主要包括FTP、Gopher、Usenet、Telnet等資源。
(3)網絡信息檢索工具的功能
(4)信息檢索工具的應用現狀和發展趨勢
(5)網絡信息檢索工具與紙本檢索工具的比較
88、搜索引擎
(1)搜索引擎的概念
廣義的搜索引擎泛指網絡上提供信息檢索服務的工具和系統,是網絡檢索工具的統稱。包括三種類型:
①目錄式搜索引擎,即網絡資源目錄,又稱目錄行檢索工具。主要通過人工發現信息,依靠編目員的知識進行甄別和分類,用戶在分類結構中進行瀏覽和查詢信息。如Yahoo!、 搜狐等。
②基於機器人技術的搜索引擎:主要採用自動搜索和標引方式來建立和維護其索引數據庫,用戶查詢時可以用邏輯組合方式輸入各種關鍵詞,搜索引擎通過特定的檢索軟件,查找其索引數據庫,給出與檢索式相匹配的檢索結果,供用戶瀏覽利用。如Alta Vista、Google和天網等。
③元搜索引擎,即集合型檢索工具,主要通過調用多個獨立搜索引擎的檢索功能來實現互聯網資源的查詢。
狹義的搜索引擎主要指利用自動搜索技術軟件,對互聯網(主要是萬維網)資源進行蒐集、組織並提供檢索的信息服務系統。即廣義的搜索引擎的第2種類型。
(2)國內外搜索引擎的發展階段
根據搜索引擎不同時期的研究重點和服務性能,可以將搜索引擎的發展分爲三個階段:
①第一階段起始於1994年,以Yahoo!,Alta Vista 和 Infoseek爲代表。這個時期的搜索引擎一般索引都少於100萬個網頁,一般不重新蒐集網頁並刷新索引,而且其檢索速度非常慢。在實現技術上也基本沿用較爲成熟的傳統檢索技術,相當於利用一些已有的技術實現在互聯網上的信息檢索。
②第二階段起始於1998年,以Google爲代表。處於這個階段的搜索引擎大多采用分佈式方案來提高數據庫規模、響應速度和用戶數量,並且只專注於做後臺技術的提供都,在服務模式上不斷創新,競價排名和圖形圖像以及MP3的搜索引擎便是這個階段的產物。
③第三階段是起始於2000年左右,也是當前搜索引擎空前繁榮的時期,以Google、Baidu、Yahoo!等搜索引擎爲代表。這一時期搜索引擎的主要特點是:1)索引數據庫的規模大,一般的商業搜索引擎都保持在幾千萬甚至於上億個網頁;2)除了一般意義上的搜索外開始出現主題搜索和地域搜索;3)能夠實現一定程度上智能化、可視化檢索;4)由於搜索返回數據量過大,檢索結果相關度評價成爲研究的焦點。
(3)搜索引擎的結構
搜索引擎一般主要由搜索器、索引器、檢索器和用戶接口四部分構成。
①搜索器:本質上是一種計算機爬蟲程序,其功能是發現和蒐集互聯網的信息。一個搜索引擎一般會有多個Spider或Robot,並且會日夜不停地運行,以儘可能多和快地蒐集各種類型的信息。搜索器還需要定期更新已經蒐集過的信息,以儘量減少甚至避免死鏈接和無效鏈接。
②索引器:其功能是對搜索器所蒐集來的信息進行分析和理解,從中抽取索引項,用於表示文檔以及生成文檔庫的索引表,形成索引數據庫。由於各個搜索引擎中的索引器理解和抽取信息方式的不同,因此其索引表一般也不同,索引表一般使用某種形式的倒排表,即由索引項可以立即查找到相關的網頁。
③檢索器:其功能是對用戶的檢索請求進行分析,將其分解爲一個或多個關鍵詞,並轉換成計算機可識別的規範檢索式,然後在索引數據庫中進行匹配,進行文檔與查詢的相關度評價,對將要輸出的結果按匹配程度的高低進行排序,並實現某種用戶相關性反饋機制。
④用戶接口:其主要作用是輸入用戶檢索請求、顯示用戶查詢檢索結果和提供用戶的反饋機制。一般搜索引擎的用戶接口都提供一般檢索和高級檢索。使用人機交互的理論和訪求來設計和實現用戶接口,以方便用戶使用搜索引擎,並且高效率,多途徑地從搜索引擎查詢到所需的信息,是所有用戶接口設計的原則。
(4)搜索引擎的工作原理
首先,搜索器根據一定的搜索策略抓取互聯網上的網頁,然後由索引器對搜索回來的網頁信息進行分析,抽取索引項,用於表示文檔以及生成文檔庫的索引表,形成索引數據庫。用戶通過檢索接口輸入相關的查詢請求,並對用戶的查詢請求進行分析和轉換,由檢索器在索引數據庫中進行查找和匹配,最後將符合要求的文檔按相關性程度的高低進行排序,形成結果列表,並通過用戶接口將檢索結果列表返回給用戶。
由以上搜索引擎的工作原理可以看出,搜索引擎的工作過程構成了一個典型的,雙層的C/S服務模式。當用戶訪問搜索引擎時,用戶端是客戶端,向搜索引擎發送檢索請求,搜索引擎充當服務器,將符合用戶請求的檢索結果以應答的形式返回給用戶。因此,搜索引擎的用戶檢索過程是一層C/S模式。當搜索引擎抓取網頁時,搜索引擎可以被看作是客戶端,向互聯網的各Web站點發送搜索請求,互聯網的各種網絡資源則是服務器,將相關網頁作爲應答返回給搜索引擎。因此,搜索引擎的數據蒐集過程也是一層C/S服務模式。
(5)搜索引擎的特點
①優點:1支持全文檢索:搜索引擎的出現大大推動了全文檢索技術的發展,全文檢索技術是搜索引擎的核心。全文檢索真正提供了用戶對互聯網上所有信息資源進行檢索的手段,給用戶以最全面最廣泛的搜索結果。
2檢索功能較爲全面,檢索方法多樣:多數搜索引擎都支持布爾邏輯檢索、截詞檢索等。不僅能輸入單詞、詞組或句子進行檢索,還能指定多個單詞之間的邏輯及其位置關係。此外,還可以對被檢索文獻發表的語種等進行限制。
3檢索結果按相關性排序:搜索引擎在按照用戶要求找到檢索結果以後,都會根據自身系統的設定,對檢索結果進行相關性排序,然後輸出給用戶,並將最相關的檢索結果排在最前面。
4查詢速度快,維護更新及時:搜索引擎是一種自動搜索技術,數據庫的容量雖然很大,但搜索的速度還是比較快,更新也非常及時。搜索引擎都具有對索引數據進行動態維護的功能,在很大程度上保證了它的查詢速度和內容更新。
5支持關鍵詞檢索和分類目錄瀏覽檢索:多數搜索引擎在提供關鍵詞檢索的同時,或自己設置分類主題目錄,或直接採用其他的網絡資源目錄,支持關鍵詞檢索與目錄的並行,實現兩者的結合。
②不足:搜索引擎雖然具有許多優勢,但在信息維護、信息重複、網絡及站點負載等方面還存在很多的不足。首先,網絡信息覆蓋範圍有限,目前還沒有一種能夠覆蓋整個國際互聯網信息資源的搜索引擎。第二,搜索引擎雖然索引數據庫龐大,但檢索效果不盡如人意,檢索功能尚待改善,檢索的查全率和查準率不高。第三,搜索引擎對網絡信息的組織與標引缺乏控制,各搜索引擎都有自己的信息收集方式、檢索算法和結果排序方法,使得信息的組織沒有統一的規範,加上索引方式也不盡相同,也給用戶利用搜索引擎帶來了一定的不便。
(6)搜索引擎的功能
搜索引擎產生和發展的歷史雖然不長,但它的功能卻十分強大,搜索引擎的檢索實際上也是一種數據庫檢索,幾乎可以提供一般數據庫的全部檢索功能。
①搜索引擎的基本檢索功能
1布爾邏輯檢索:是網絡信息資源檢索中應用最廣泛的檢索功能。但常見的三種布爾邏輯符號AND、OR和NOT,應用於具體的搜索引擎的表現方式有所不同。
2詞組檢索:也稱短語檢索,或字符串檢索。是將一個詞組或短語用雙引號(“”)括起作爲一個獨立運算單元,進行嚴格匹配,以提高檢索準確度的一種方法。幾乎所有的搜索引擎都支持詞組檢索。
3截詞檢索:在搜索引擎中,右截詞采用的比較多,在中文裏,也稱爲前方一致檢索。絕大多數搜索引擎都支持截詞檢索,但對於每個具體的搜索引擎的截斷方式,截詞符的表示方法也不完全一樣。
4位置檢索:在各個搜索引擎中,所設置的位置算符的表示方法不盡相同。
5字段檢索:字段檢索也是搜索引擎檢索過程中經常使用的功能之一。搜索引擎常用的字段有:Title/t(表示檢索詞或檢索式要出現在標題中)、Subject(表示查詢的信息要包含在主題字段中)、Text(表示查詢文本中包含檢索式的頁面)、Host(表示在指定的服務器上查找網絡信息)、URL/u(表示查找URL中包含檢索提問式的頁面)、Link(表示查找含有鏈接至URL的頁面)、(Domain(表示查找指定域名的頁面)等。
6區分大小寫檢索:主要是針對英文的搜索引擎。大寫的英文表示專有名稱、人名或地名,小寫的英文則表示普通名詞。
②搜索引擎的其他檢索功能
隨着網絡技術發展的日新月異,搜索引擎的技術也不斷地向前發展。除以上提到的一些搜索引擎的基本檢索功能外,還發展了一些其他的檢索功能。
1自然語言檢索:是一種直接採用自然語言中的字、詞甚至於整個句子作爲提問式進行檢索的方法。目前,還出現了自然語言智能答詢。
2多語種檢索:現在越來越多的搜索引擎開始具有多語種檢索的功能,用戶可以選擇限制檢索結果的語言。
3概念檢索:是指使用某一檢索提問詞進行檢索時,能同時對該詞的同義詞、近義詞等進行檢索,以達到擴大檢索、避免漏檢的目的。概念檢索在很大程度上可以提高查全率,不只簡單地查找含有要查找的單詞的文檔,同時還可以搜索出同要查找的概念相關的文檔。
4過濾檢索:是指在檢索中自動將一些網絡信息過濾掉。可以幫助用戶處理大量的信息,對動態的信息流進行篩選,着重於排除用戶不希望得到的信息,提高網絡檢索的效率。
(7)搜索引擎的發展趨勢
搜索引擎經過十多年的快速發展,其檢索性能不斷地得到優化,檢索功能和途徑越來越多樣化,這在用戶從海量信息中查找所需信息發揮了越來越重要的作用,不過,面對數量龐大、增長迅速的信息量和不斷多樣化的信息類型,用戶的檢索需求越來越個性化和對檢索要求越來越高,這給搜索引擎帶來越來越多的挑戰。目前搜索引擎自身也存在着一些問題,如對自然語言提問的理解和處理能力差、難以準確地檢索多媒體信息、不能基於用戶背景進行個性化檢索、檢索結果常常存在大量重複信息和無用信息等。
①集成搜索引擎:隨着互聯網規模和信息量的急劇膨脹,僅依賴於一家搜索引擎已經無法適應當前互聯網的狀況。集成搜索引擎是在一個萬維網頁面上鍊接若干種獨立的搜索引擎,檢索時需要點選或指定搜索引擎,一次檢索輸入,多個搜索引擎同時檢索,擴展了檢索範圍,起到了各搜索引擎間取長補短的作用,極大地方便了用戶。
②垂直搜索引擎:垂直搜索引擎通過針對某一特定領域、特定人羣或某一特定需求提供的有一定價值的信息和相關服務,其特點是“專、精、深”,且具有專業和行業特色,相比較綜合搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。垂直搜索引擎在提供專業信息方面有着大型綜合搜索引擎所無法比擬的優勢,它所採用的原理和技術基本和綜合搜索引擎一樣,而且基本上都是成熟的技術。因此,基於專業領域的垂直搜索引擎是目前搜索引擎發展的趨勢。
③智能搜索引擎:傳統的搜索引擎不能很好地理解用戶的查詢需求,難以基於用戶的背景提供個性化的檢索服務,缺乏對內容的語義理解,概念推理和自學習功能。智能搜索引擎在傳統搜索引擎功能的基礎上,還提供用戶角色登記、用戶興趣自動識別、內容的語義理解、智能化的信息過濾和推送等功能。
④可視化搜索引擎:可視化搜索引擎是實現檢索結果的可視化。將檢索結果用可視化方式進行顯示不僅可以使人們直接觀察到信息,也能實現與用戶更直接、直觀的交互,還能揭示檢索結果中文檔之間的關係。此外,可視化的特徵如顏色、位置等信息能幫助用戶快速找到感興趣的區域。
⑤多媒體搜索引擎:目前搜索引擎對多媒體信息的搜索主要是依靠關鍵詞檢索,但是用關鍵詞對多媒體信息檢索存在着很大的不足,最主要的是難以深入提示多媒體信息的內容特徵。國內外大多數學者都認爲對多媒體信息的檢索應基於多媒體的內容,而不能僅僅停留在文字描述上。基於內容的檢索不同於傳統的檢索手段,它用於檢索的是反映媒體內容並與媒體存儲在一起的各種量化特徵,使用的是基於相似性度量的示例查詢方法。它區別於傳統的檢索手段,融合了圖像理解技術、模式識別技術,從而可以爲信息用戶提供更加有效的檢索手段。
⑥關聯式綜合搜索引擎:是一種一站式的搜索服務,它使得互聯網用戶在搜索時只需要輸入一次查詢目標,即可在同一界面得到各種有關聯的查詢結果。這項服務的關鍵在於有一架構建在XML基礎上的整合資訊平臺。XML技術使信息結構化,同時使查詢結構化,從而使搜索的準確度和相關性大大提高。
(8)主要搜索引擎介紹
①Alta Vista
(1)概述:Alta Vista是由數字設備公司1995年12月開發的,寓意爲“高瞻遠矚”,初衷是通過對整個Web做全文索引,來展示數字設備公司alpha服務器的強大。其出色的性能,令Alta Vista迅速超越Lycos和Excite,1996年便成爲Yahoo!的關鍵詞搜索夥伴,一躍爲當時最大的基於Robot/Spider的自動搜索引擎。
Alta Vista有不少技術創新。它是第一個多語種的、支持非拉丁語言的搜索引擎,最早免費提供多語種的機器翻譯,最早嘗試韓語的BG碼和Big5碼即時轉換。與Virage合作推出的聲頻、圖片、視頻搜索,是最出色的多媒體搜索,並有過濾的選擇。儘管Alta Vista現在的地位不如Google,它仍被認爲是功能最完善、搜索精度較高的全文搜索引擎之一。2004年,Alta Vista被Yahoo!收購,其數據庫被Yahoo!搜索數據庫替代。
(2)特點和功能:Alta Vista是一個功能強大的搜索引擎,它的簡單檢索是推薦使用的首選方法,支持自然語言檢索、截詞檢索、字段限制檢索。高級檢索支持包含各種邏輯關係符號和多層次括號的檢索。作爲一個優秀的搜索引擎,Alta Vista具有一系列突出的特點和功能:
①檢索速度快,搜索的結果比較完全和準確。Alta Vista的Web索引數據庫十分巨大,容量超過200G,目前標引了近25億個Web頁面,以及1萬多個新聞組兩週內的所有文章,而且運算速度非常快,對於大多數的查詢,僅需1-2秒鐘的響應時間。
②檢索功能全面。出上面提及的各種檢索功能外,還可以進行圖片搜索,用關鍵詞找出想要的圖片;可以進行多語種檢索,它支持25種語言的檢索;同時,還可以按主題瀏覽,以目錄的方式查詢需要的信息,它採用的是LookSmart的索引目錄;此外,還具有檢索結果的翻譯功能;Alta Vista在每條結果後面給出一個“Translate”的鏈點,允許對檢索結果進行即時翻譯。
②LYCOS
(1)概述:Lycos由Terra Lycos集團1995年開發,是搜索引擎中的元老,是最早提供信息搜索服務的網站之一。Lycos一詞來自拉丁語,一是是“狼蜘蛛”,這種蜘蛛的捕食方式不是織網,而是採取主動進攻。該網站也猶如它的名字一般,銳氣十足,靈活機智。
在全球化的擴張中,Lycos採取了與當地領先企業合作,迅速打入本地市場的策略。1998年,Lycos以日本作爲突破口,進入亞洲市場,此後,進軍韓國。1999年12月,Lycos與新加坡電信合資創建Lycos Asia公司,通過在新加坡、中國、中國臺灣、中國香港、印度以及東南亞等九個國家與地區,11個Lycos各地門戶網站的成立與整合,將目標定位爲滿足每位網絡使用者個性化服務需求,進而成爲亞洲地區訪問人數最多的門戶網站之一。2000年Lycos被西班牙網絡集團收購,已成爲目前西班牙語最大的門戶網站,並且Lycos現已放棄自己的Spider索引數據庫,目前搜索結果大部分來自FAST/AllTheWeb引擎。
(2)檢索功能:Lycos提供簡單檢索和高級檢索。進行簡單檢索時,可在檢索框中直接輸入檢索詞或檢索式。可使用布爾邏輯算符、引號、+、—、通配符KaTeX parse error: Expected 'EOF', got '&' at position 2766: …全稱爲Fast Search &̲ Transfer(FAST)…”(與)、“—”(非)、“丨”(或)。檢索結果顯示格式包括網址、摘要、最後修改時間、長度、相關度、編碼類型等。檢索結果按關鍵詞串的相關程度來排列。
天網搜索引擎的FTP搜索是其一大特色,在天網首頁輸入框輸入用戶要查詢的文件名,也可以在“FTP檢索”頁面進行常用功能的FTP搜索。還實現了中文網頁的自動分類功能,即天網目錄,它所蒐集的是網頁,而不同於其他目錄的網站,同時,採用的是自動分類,而非人工蒐集整理加工。此外,天網搜索引擎還提供了“主題搜索”,能夠分別實現北京大學校內搜索、西安交通大學校內搜索、新聞搜索、美國1000所大學搜索、Unix相關搜索。用戶可以根據自己的特殊需要,選擇使用相關的主題進行檢索。
12 中搜:中搜,原名慧聰搜索,成立於2003年12月。目前提供網頁、新聞、行業、網站、MP3、圖片、論壇、地圖等搜索,其中行業搜索比較有特色。此外,還提供計算器、IP查詢、郵編地區查詢、電話區號查詢、在線詞典等服務。中搜首頁的所有內容都是依靠搜索引擎技術自動抓取、聚類而成,所有工作只需要一個編輯就能完成(主要是審覈內容的合法性)。在新版本中搜首頁上,不再只是單純的搜索框,而是在保留搜索功能外,增加了互聯網熱點資訊和熱帖,實際上是把一些質量高、有特色的、公衆關注的搜索內容直接推薦給網民。
13 新浪搜索引擎:新浪搜索引擎是面向全球華人的綜合型網絡信息查詢系統。信息資源豐富,索引數據庫規範,並有主題分類目錄。目前共有16大類目錄,1萬多個細目和20餘萬個網站,是互聯網上規模最大的中文搜索引擎之一。新浪搜索引擎雖然也具備主題目錄瀏覽的功能,但其關鍵詞檢索功能在中文信息檢索工具中也具有較強的優勢。對檢索結果的技術處理,新浪搜索同時採用兩種技術方案:一是站點類聚,而是內容類聚。新浪搜索力圖爲用戶提供最有價值的信息,避免數量過多且重複的檢索結果影響用戶的使用。
89、網絡資源目錄
(1)網絡資源目錄的含義
網絡資源目錄是一種主要採用人工或機器搜索信息,由人工對蒐集的信息進行甄別、加工整理、分類,建立分類導航或分類編排網站目錄,提供分類瀏覽的檢索工具。也稱爲“目錄式搜索引擎”、“主題指南”、“網絡分類目錄”等。
(2)網絡信息資源的原理
①網絡資源目錄以分類理論爲依據:資源目錄是傳統分類法在網絡環境下的新的發展,它依然遵循知識分類的原則。分類方法應用於網絡信息資源的組織,在很大程度上,可以限定信息資源範圍,提高查準率,分類等級結構在事實上起到了提供上下文檢索詞的效果,等級結構可以便於用戶在查找時進行瀏覽。
②網絡資源目錄以人工收集信息和組織信息爲主:網絡資源目錄主要採用人工的方式來建立和維護目錄。隨着信息種類、數量的劇增,以往的手工處理和加工方式不堪重負,傳統的人工分類和索引方式雖然保證了質量,但費時費力,而對成指數增長的網絡資源,顯然力不從心。網絡資源目錄除了網站外,還開始收入大量網頁。
③網絡資源目錄將超文本技術融進了分類法:分類法的語義關係網絡與超文本系統有某種相似之處,正式基於這種相似性,人們在網絡資源目錄中吧分類法和超文本聯繫在一起,擴展了傳統分類法,增強了分類法的擴檢和縮檢功能及其嚴格的概念邏輯關係,在網絡信息資源的查詢過程中起到了指南作用,對用戶的檢索過程和檢索範圍進行控制,爲不同專業知識水平的用戶提供查詢信息的捷徑。
(3)網絡資源目錄的類型
按照分類體系建立基礎的不同,可以將網絡資源目錄分爲兩種類型:
①傳統分類法型網絡資源目錄:傳統的分類法多以學科分類爲基礎,直接採用傳統分類法的網絡資源目錄提供按學科進行瀏覽的功能,比較適應學術性信息需求的用戶查詢信息。同時,可以依據類號或類目之間的層次隸屬關係或平行關係,來擴大或縮小檢索範圍,類目瀏覽在某種程度上提供了上下文的環境。而且,絕大多數的分類法採用符號標記,而不是採用專門語言,所以用戶可以進行多語種檢索。還有,類名比較規範,容易理解。網絡資源目錄對分類法的應用,並非完全徹底地照搬照抄傳統的文獻分類法。爲了讓網絡用戶對分類體系和標記符號等有所熟悉,並能夠利用,一些傳統分類法型的網絡資源目錄還提供了類目索引。目前,在利用網絡信息資源的門戶網站上,這種類型的網絡資源目錄不佔據主流。
②創新型網絡資源目錄:指根據網絡信息資源的特點,結合網絡新環境、新要求創造的新型的網絡資源目錄。也稱爲網絡信息分類法。它打破了傳統的以學科分類爲基礎的文獻分類法的分類方式,採用知識分類的平臺,在一定程度上更多地吸納了主題的因素,成爲一種不同於傳統分類法的主題分類目錄。它作爲網絡檢索工具的主流目錄,是我們利用網絡信息資源的捷徑。實用性原則、自然性原則和針對性原則是編制網絡資源目錄的基本原則。
(4)網絡資源目錄的特點
①在體系結構上,以樹狀結構爲主:網絡資源目錄是一個由類目、子類目等構成的可供瀏覽的目錄等級式樹狀結構。每一個網絡資源目錄都是盡力做到結構清晰、內容完整全面,各級詳略程度適中。分類的層次決定了網絡資源的知識組織的詳略適度,網絡資源目錄爲了方便用戶使用和節省用戶的時間和精力,一般都不會設置過多的層次。
②在類目設置上,以事物爲中心確定類目:網絡資源目錄不同於傳統文獻分類法以學科分類爲基礎的類目設置方式,大多從方便用戶的角度出發,以事物爲中心來設置類目,更加重視從事物對象和主題的角度來確定類目。
③類目的展開呈現出明顯的多維性:超文本超媒體技術使網絡資源目錄可以按照學科之間的交叉與滲透的多元關係,採用多視角、多途徑揭示,充分反映學科發展的多維構架和事物的多維屬性。這種多維展開的方式爲用戶提供了多種的瀏覽途徑,方便用戶從不同的角度查詢自己所需要的網絡信息。
④類目直接用語詞作標記:傳統分類法主要採用分類號作爲類名的標記,對於圖書文獻的分類主要體現在分類號上。在網絡資源目錄中,則直接用語詞來進行標記。這是由於網絡信息資源的分類標記的主要作用是爲方便用戶檢索使用,因而更多地強調標記的直接性、表達性。而最具有表達性和直觀性的標記就是語詞,語詞既是類名又是標記符號,用戶在檢索網絡信息時,直接用語詞來檢索。
⑤面向用戶的易用性:網絡資源目錄面向所有終端用戶,爲了適應這一要求,網絡資源目錄在設計和表現方面都體現出明顯的易用性。不需要用戶懂得很多專業檢索知識和高深的檢索技巧。
⑥類目體系呈現出動態的特徵:由於網絡信息資源處於一種動態的環境中,各種信息都在不斷更新、淘汰,同時,由於用戶的需求也是多方面的,因而網絡信息資源的分類也應是是一種動態的。網絡信息資源分類的動態性,明顯地表現在類目的設置上,尤其是子類目的變化。整個類目體系是個相對穩定的動態體系,需要適時地更新,從而保證它的適用性。
⑦表現出明顯的兼容性:網絡資源目錄是一個通用性很強的分類體系,具有海納百川的特徵,可以容納各種類型和各種內容的網絡信息。網絡資源目錄所採用的以主題和事物爲中心的立類思想,在很大程度上保證了網絡資源目錄的兼容性特徵。
不足之處:
①類目名稱設置欠規範:個別類目名稱不規範、不統一、不標準、無規律可循。類目名稱用來表述和概括本類目的信息內容,起着標識、引導的作用,類名應該能夠準確地反映該類目的含義。網絡資源目錄中有些類目名稱設置由於過於追求新異或時尚等原因,出現了一些讓用戶費解的類目。
②類目的設置缺乏邏輯性:邏輯性是傳統分類法的核心原則之一,而網絡資源目錄由於更多強調靈活性和易用性,因而導致了在邏輯規則上出現了一些違背基本邏輯方法的做法,存在歸類不當,在類目展開中出現上下位顛倒,一個類目下包括的子類目範圍過廣,把不相從屬的類目也收入到其下等現象。
③商業化和生活化氣息過濃:網絡資源目錄過分強調商業性和生活化,而忽略了學術性資源的分類問題。它可以滿足人們瞭解新聞時事、網上購物、網上聊天等需求,但同時也應考慮到網上學術性資源的需求,社會科學和自然科學研究者也希望能從網上獲取相關學術信息。
(5)網絡資源目錄介紹
①Yahoo!
(1)概述:Yahoo!是世界上最著名的網絡資源目錄之一。1994年4月,斯坦福大學的兩位電子工程學博士研究生楊致遠和大衛·費羅開始編制一個互聯網上他們感興趣的站點目錄,這就是最原始的Yahoo!。1995年成立Yahoo!公司。Yahoo!以其精心挑選的站點、廣泛的內容成爲廣大用戶網上查詢的首選工具。目前,Yahoo!在全球共有24個網站,12種語言版本,其中雅虎中國網站於1999年9月正式開通,是雅虎在全球的第20個網站。
(2)特色:Yahoo!的魅力在於它的可瀏覽式等級主題目錄。按照主題建立分類索引,提供全面的分類體系結構,並結合高質量的檢索軟件,成爲網絡檢索工具的佼佼者和等級式網絡資源目錄的典型代表,它的這種目錄模式成爲後來其他網絡資源目錄效仿的範例。Yahoo!進行網絡信息資源分類的實質是應用了分面分析方法。它採用多標準設類、多維展開的方式,能夠爲某一信息源在其巨大的分類等級結構中提供不同的路徑分支入口,保證了從不同的路徑、爲檢索相同內容的不同用戶提供服務。對於交替類目,Yahoo!利用符號“@”來表示,起到了類似於相關參照的作用,能夠指引用戶由某一子類目進入Yahoo!的瀏覽性等級結構的其他分支中。
Yahoo!除了提供列表式目錄鏈接瀏覽外,還提供關鍵詞檢索,它的搜索技術目前由Google支持。它的搜索技術目前由Google支持,2000年6月,Yahoo!公司宣佈終止與搜索引擎公司Inktomi的合作,而改用Google公司的搜索引擎產品,兩者的結合看成珠聯璧合:一個提供強大的高質量的主題指南目錄,另一個則提供高水平的檢索工具。Yahoo!的關鍵詞檢索可以提供簡單檢索和高級檢索。檢索時,可以利用雙引號、限定檢索等。
②Open Directory
(1)概述:Open Directory始於1998年6月,創建者爲一位程序員裏奇·斯克林塔,目的在於建立一個Web上最全面的目錄。最初的名字是GnuHoo,後改名爲NewHoo,1998年11月,Netscape獲得了NewHoo,不久將NewHoo改名爲Open Directory Project(ODP),並且決定任何組織和個人都可以在他們自己的網站上使用ODP數據庫的拷貝。與Netscape的聯姻,讓ODP的名氣大增,越來越多的志願者加入到了編輯的行列中,Open Directory的內容也越來越全面。到目前爲止,大約已有60個Web站點正在使用Open Directory的數據庫。Open Directory收錄有超過38 000 000個站點,擁有577 822個編輯,460 000個分類。它有16個基本大類,其二級類目相對Yahoo!來說,更爲詳細和專深。
(2)特色:Open Directory是一個非常有特色的網絡資源目錄,它是一個非商業性和非營利性的目錄,擁有着龐大的志願者編輯隊伍,編輯人數遠遠超過了Yahoo!僱傭的編輯人數,其中大多數都對自己負責的部分相當感興趣,有的就是該領域的專家權威,因此,它的不少分類內容,特別是一些邊緣學科或冷門學科,要比Yahoo!提供的全面得多,有的甚至於在Yahoo!中根本找不相對應的分類。這個目錄的編纂方式在很大程度上體現了互聯網上一直存在着的“我爲人人,人人爲我”的奉獻精神。
(2)檢索功能:Open Directory也提供關鍵詞檢索,分爲簡單檢索和高級檢索。在簡單檢索中,支持布爾邏輯檢索,可以用引號“”來表示詞組檢索,也可以進行字段限定檢索等等。它的高級檢索提供了相關的選擇,包括選擇只檢索類目、只檢索站點等。同時,它還提供了與其他著名搜索引擎的鏈接,包括AllTheWeb、Alta Vista、Google、Yahoo!等,Open Directory會直接將檢索提問輸入所指向的搜索引擎,並獲得其他引擎的檢索結果。
Open Directory是一個非常有前景的網絡資源目錄,它可無限擴展的編輯人員,爲其今後的發展注入了極大的活力,它的資源收錄的增長速度,內容的更新頻次,都是其他網絡資源目錄所無法比擬的。同時,它詳盡的類目體系,開放的管理體制,都形成了它獨有的特色,成爲用戶獲取網絡信息資源的重要門戶網站。
③Galaxy
Galaxy創始於1994年1月,是互聯網上一個老牌的網絡資源目錄。Galaxy將基本大類分爲16個,採用人工編輯目錄的方式,保證了收錄資源的質量。它是一個建立在垂直基礎上的等級式分類目錄,可以提供給用戶集中的相關的信息。
Galaxy同時也提供關鍵詞的簡單檢索和高級檢索,支持布爾邏輯檢索、字段限定檢索、引號詞組檢索等。Galaxy有多重檢索選擇,包括萬維網檢索、目錄瀏覽、域名檢索、多元搜索等多種檢索方式。多元搜索的結果來自AllTheWeb、Alta Vista、Galaxy、Google、Yahoo!、Open Directory等。
Galaxy是一個較好的網絡資源目錄,這些年來,不斷改進和發展自身,豐富其信息服務功能。
④搜狐
(1)概述:搜狐公司成立於1996年,1998年推出了我國第一個大型的中文網絡資源目錄,並且以“出門靠地圖,上網找搜狐”的服務理念受到以後的歡迎。搜狐的網絡資源目錄經過數年的發展,到現在已經發展成爲中國影響力最大的分類式網絡檢索工具。
搜狐的網絡資源目錄堪稱我國第一部系統的網站分類法,對其他中文網絡資源目錄的發展起到了積極的促進作用。搜狐網絡資源目錄中的網站信息資源的收集與處理一直堅持人工編輯爲主,確保分類體系和網站信息的人性化特點以及網絡資源目錄的精確性、系統性和科學性。其網絡資源目錄的分類體系的編制,基本上堅持了在符合科學性原則的前提下,充分考慮網站資源和用戶的查詢習慣的原則。它採用了“縱向成枝,橫向成網”、“主題法與分面組配法結合”的分類方式。搜狐網絡資源目錄收錄的網站資源都經過了搜狐分類編輯們嚴格的審覈和篩選,質量比較高。搜狐的網絡資源目錄的查詢同樣是按照信息所屬的類別,層層點擊查找信息,所以用目錄時首先要考慮清楚想要查找的信息屬於哪個類別。
(2)檢索功能:搜狐作爲一個綜合性很強的搜索網站,提供了多想的檢索功能。搜狐提供強大的關鍵詞檢索功能,採用的是百度的搜索引擎技術,搜狐與百度的合租始於2000年8月,兩年之後再次續簽合同,擴大原有的合作範圍。它提供簡單檢索和高級檢索兩種形式。
在簡單檢索中,用戶可以在搜索框中直接輸入自己想查找信息的關鍵詞,找到相關信息。這種方法對網站、網頁、新聞、黃頁、軟件等都適用。
在高級檢索中,搜狐通過選擇“所有輸入的關鍵詞”和“至少其中一個關鍵詞”來分別完成邏輯與和邏輯或的運算。同時,也可以直接輸入運算符來完成高級檢索。搜狐的高級檢索還提供了檢索結果的類聚方式的u型安澤,可以選擇所返回的網頁時“內容類聚”、“站點類聚”或是兩者都要。此外,還可以對時限進行選擇,制定查詢結果中網頁的生成時間,它包括四種選擇:任何時間的網頁(默認選擇)、三個月內的網頁、六個月內的網頁、一年內的網頁。
90、元搜索引擎
(1)元搜索引擎概念
元搜索引擎,又稱多元搜索引擎或集合式搜索引擎。是一種將多個獨立搜索引擎集成在一起,提供統一的檢索界面,將用戶的檢索提問同時提交給多個獨立的搜索引擎,並將檢索結果一併返回給用戶的網絡檢索工具。元搜索引擎沒有自己的網頁數據庫。元搜索引擎通過向其它獨立搜索引擎發送搜索請求來處理用戶的搜索請求,然後把這些搜索結果按照一定的方式集成在一起返回給用戶。元搜索引擎是建立在已有的獨立搜索引擎服務之上的一種搜索引擎,可以將它理解爲工具書的工具書,它並不直接針對一次網絡資源本身,而是利用下層多個獨立搜索引擎提供的服務向上提供統一的檢索服務,自身不採集文檔,也沒有索引,只是維護它所管理的搜索引擎的參數信息。它最大的優點是省時,能同時查詢多個搜索數據庫,檢索的綜合性、完整性較好。因而,元搜索引擎技術現在成爲檢索工具的發展方向。
元搜索引擎與普通搜索引擎相比有很大的不同。搜索引擎擁有獨立的網絡資源採集標引機制和相應的數據庫;元搜索引擎一般沒有自己獨立的數據庫,更多地是提供統一鏈接界面(或進一步地提供統一檢索方式和結果整理),形成一個由多個分佈的、具有獨立功能的搜索引擎構成的虛擬整體,用戶通過元搜索引擎的功能,實現對這個虛擬整體中各獨立搜索引擎數據庫的查詢顯示等一切操作。
(2)元搜索引擎的特徵
①一次檢索可以實現對多個搜索引擎的檢索:元搜索引擎定製了調用多個獨立搜索引擎的統一界面,將用戶遞交的提問提交給它可支持和調用的多個獨立搜索引擎,因此,用戶的一次查詢可以同時檢索多個獨立搜索引擎。
②基於獨立搜索引擎結果的二次加工:元搜索引擎的結果基於獨立搜索引擎的查詢結果。除了一小部分元搜索引擎只能簡單地直接調用原始的結果頁面外,大部分元搜索引擎都會將各個獨立引擎的結果回收之後進行相應的整合,排除相同的結果,並按照一定的排序標準,把二次加工和整理後的結果以統一的格式提供給用戶。
③標明結果記錄的來源搜索引擎及相關度:元搜索引擎和獨立搜索引擎的很大一個區別在於其檢索結果的顯示頁面。隨着元搜索引擎技術的不斷髮展,一些元搜索引擎在用戶提問的頁面,與獨立搜索引擎幾乎沒有什麼明顯的區別。而在檢索結果的反饋時,在每個檢索結果中都清楚地標明瞭它的來源搜索引擎,有的還標註了該檢索結果的相關度。
元搜索引擎的功能很大程度受獨立搜索引擎的限制,而且結構相對比較簡單,因此不可避免地存在一定侷限性:
①檢索功能簡單:實現檢索語法轉換的能力是有限的,一般只提供一個公共接口供用戶輸入查詢詞,實際查詢在各個獨立搜索引擎中實現。對於簡單的布爾邏輯檢索和詞組檢索,元搜索引擎的檢索效果很好,但對於複雜的檢索功能,效果並不是十分理想。因此,元搜索引擎一般只支持通用的檢索句法,多數元搜索引擎不支持指定字段檢索等特殊檢索,掩蓋了獨立搜索引擎中效果較好的高級查詢功能,抹殺了各個獨立搜索引擎的特色功能,也在一定程度上影響了檢索效果和質量。
②在調用搜索引擎和檢索結果的數量上都存在一定的侷限:大部分元搜索引擎只支持調用幾個主要的搜索引擎,有許多大型搜索引擎被排除在外,影響了信息搜索的覆蓋面。檢索速度的限制從一個側面反映出了元搜索引擎在檢索結果的數量上的侷限性,這也就是意味着只能從各個獨立的搜索引擎中檢索少量的最符合要求的命中記錄,因此必然影響了檢索結果的全面性。
③在返回結果的精確性方面,元搜索引擎不如獨立的搜索引擎:元搜索引擎將一次提問同時檢索多個搜索引擎,擴大了檢索覆蓋的範圍,提高了查全率。但其結果主要來自獨立搜索引擎查詢結果中排名靠前的記錄,在一定程度上默認了獨立搜索引擎的查準效果,而目前獨立搜索引擎自身在查全率與查準率提高方面存在着各種問題。因此,元搜索引擎在爲用戶提供更全面、綜合的結果的同時,難以控制各獨立搜索引擎的無關輸出。
(3)元搜索引擎的原理
元搜索引擎一般包括用戶查詢處理、檢索機制、結果加工處理和結果頁面定製4個部分。元搜索引擎在執行查詢之前,對要調用的搜索引擎列表進行相關的選擇,選擇方式一般有系統默認和用戶選擇兩種方式。系統默認方式是系統確定了用來檢索的搜索引擎集合,用戶無權變更;用戶選擇方式則允許用戶自主選定需要哪幾個搜索引擎中檢索。
①用戶查詢處理機制負責在接收到用戶檢索提問後,針對不同的搜索引擎進行相應處理,將用戶的檢索提問轉換成能檢索不同搜索引擎數據庫的提問表達式。
②元搜索的檢索機制是元搜索引擎根據對各成員搜索引擎的檢索結果測評分析而制定的一套規則,用於督導檢索過程和結果輸出過程。作爲成員的獨立引擎有各自不同檢索界面,簡單的只採用單個關鍵詞,複雜的可以指定任意的多個關鍵詞之間的布爾條件或詞間距。另外,在檢索機制中還可以明確對結果反饋的要求。
③結果的加工處理機制負責對從各個搜索引擎得到的結果作綜合處理,這一結果處理過程包括對結果重複與否、結果之間相關大小等作出判斷,最後遴選出滿足條件的記錄輸出。
④結果頁面定製機制將最終結果以定製的界面呈現給用戶。結果輸出的頁面定製形式在不同的元搜索引擎中有不同的體現,可以直接調用獨立搜索引擎原始的反饋頁面,也可以由元搜索引擎重新定製一個全新頁面。
從理論上來說,在檢索獨立搜索引擎時,經常會得到大量返回的結果,元搜索引擎有着自己獨特的檢索集成方法。目前,元搜索引擎所採用的結果集成的方法主要有以下兩種:
①直接將不同搜索引擎的結果合併後提供給用戶。這種方式使得排在後面的搜索引擎的搜索結果無形中被忽略掉了,它只提高了搜索結果的完全度,而不能提高用戶的滿意度,但這種方式爲用戶在結果集中再次搜索提供了數據保障。
②將響應速度最快的搜索引擎的搜索結果最先返回給用戶,大大提高了元搜索引擎的響應速度。
(4)元搜索引擎的分類
①根據運作平臺的不同,可以分爲網絡型元搜索引擎和桌面型元搜索引擎
網絡型元搜索引擎:是指提供檢索服務的WEB元搜索引擎站點。操作簡單,任何一個連入互聯網的用戶都可以直接利用它們檢索自己需要的信息。
桌面型元搜索引擎:是一個包括多個成員搜索引擎的完整系統,往往允許用戶自定義檢索式運行的搜索引擎集合,甚至可由用戶添加新的搜索引擎,不僅可以實現對多個搜索引擎的並行檢索,而且也能提供重要的後期處理功能,更容易提供個性化的檢索服務。
②根據檢索機制的不同,可劃分爲目錄式元搜索引擎和統一入口式元搜索引擎
目錄式元搜索引擎:指按照一定的形式將所有的獨立搜索引擎集中羅列在頁面上,幫助和引導用戶根據檢索需要來選用搜索引擎。它的結果反饋頁面多直接引用原始搜索引擎的結果頁面。
統一入口式元搜索引擎:指利用統一的檢索界面,實現對多個獨立搜索引擎索引數據庫進行檢索,並將檢索結果以統一格式顯示的元搜索引擎。
③根據結果顯示的不同,元搜索引擎又可分爲直接調用原始頁面型、分散綜合型和混合綜合型
直接調用原始頁面型元搜索引擎:指檢索結果直接來自原始搜索引擎站點的結果頁面。這種元搜索引擎對所得的檢索結果不作任何處理,只是把它所包含的獨立搜索引擎的原始檢索結果頁面返回給用戶。
分散綜合型元搜索引擎:指依次按照每個獨立搜索引擎爲單位顯示檢索結果,也就是說,同一個獨立搜索引擎所得的檢索結果被集中列在該搜索引擎之下。
混合綜合型元搜索引擎:指將各個獨立搜索引擎中查找的結果進行綜合,按照元搜索引擎自身設定的排序,將查詢各個獨立搜索引擎的結果逐個顯示給用戶,在檢索結果的每條記錄中顯示有該記錄的來源。
(5)元搜索引擎的技術
元搜索引擎與搜索引擎的最大區別是它沒有自己的索引數據庫,不需要解決網絡資源的收集問題。元搜索引擎的核心問題是要解決如何調用其他搜索引擎的索引數據庫,如何獲取檢索提問在其他搜索引擎中的查詢結果,以及如何評價、排序、呈現結果等。因而,元搜索引擎圍繞解決這些問題,主要涉及以下技術:
①用戶提問轉換技術:一般元搜索引擎都具有統一的檢索界面,供用戶輸入檢索提問,元搜索引擎集成了各個不同的獨立搜索引擎,不同的搜索引擎有不同的檢索語法和操作符使用技巧,這就需要元搜索引擎將用戶輸入的檢索提問進行處理,根據不同的搜索引擎轉換成可以進行檢索的檢索表達式,遞交各個搜索引擎進行檢索。同時要對搜索引擎不能處理的檢索方式進行排除,並選擇一種合適方式來匹配。
②分佈式數據庫調用技術:各獨立搜索引擎的數據庫分佈在不同的地域,要實現對異地、異構數據庫的訪問,需要使用一系列如分佈對象技術等相關的核心技術。同時,不同數據庫調用結果響應時間長短不一,這也會直接影響到結果頁面的呈現。
③檢索機制設計與優化技術:檢索機制的設計主要對搜索引擎的初始化方式、各搜索引擎結果平衡處理等問題進行規劃。它直接影響到用戶對元搜索引擎的滿意程度。
④檢索結果輸出技術:元搜索引擎的結果輸出處理一般有兩種形式:直接引用原始結果頁面技術和結果頁面定製技術。由於不同搜索引擎反饋的結果頁面格式相關很大,對於這些頁面的處理難度也是相當大,一方面要解析頁面找到查詢結果,同時還要能夠把這些結果的內容抽取出來,目前採用最多的是固定查找和智能判斷相結合的策略。
(6)元搜索引擎的評價
元搜索引擎是一種非常有特色的檢索工具,選擇和評價元搜索引擎可以從以下幾個方面着手:
①元搜索引擎的初始化方式:指元搜索引擎是否提供明顯的多種選擇獨立搜索引擎的方式,是否允許用戶瀏覽並選擇要調用的獨立搜索引擎。好的元搜索引擎要能夠提供一個一目瞭然的、可供瀏覽和選擇的引擎列表,並允許用戶設置調用方式。但也有許多元搜索引擎將這些信息隱藏在聯機幫助或高級檢索項中,或根本沒有體現。
②覆蓋的網絡資源類型:指元搜索引擎是否覆蓋多種網絡資源類型。有許多元搜索引擎,除了搜索引擎數據庫外,還可以選擇搜索MP3文件、圖像文件、聲音文件等類型的其他網上資源。
③網絡信息獲取方式:指元搜索引擎是否提供多途徑的信息獲取方式,是否除了關鍵詞檢索之外還提供主題範疇的目錄服務以及其他的專項服務等,讓用戶只可以更加便捷的獲取信息資源。元搜索引擎作爲一種網絡檢索工具,能否提供全面綜合的信息服務,也是衡量和評價元搜索引擎的一項重要指標。
④檢索功能:元搜索引擎是否可以提供較爲豐富的檢索功能,是否支持布爾邏輯檢索、短語檢索、自然語言檢索等高級檢索特性,能否準確地向各個獨立的搜索引擎轉換用戶的檢索請求,都是選擇和評價元搜索重要依據。此外,一個優秀的元搜索引擎必須實現不同搜索引擎間特殊檢索語法規則之間的轉換。同時,還要考慮元搜索引擎是否提供了足夠多的檢索選項和功能設置。
⑤檢索結果輸出格式:利用元搜索引擎進行檢索,用戶需要得到的是檢索結果。因而,它的檢索結果輸出格式如何、檢索結果的信息描述是否全面,會會很大程度上影響用戶對元搜索引擎的選擇。
一個優秀的元搜索引擎應該涵蓋了較多的搜索資源,可隨意選擇和調用源搜索引擎;具備儘可能多的可選擇功能,如資源類型選擇、返回結果數量控制、結果時段選擇、過濾功能選擇等;具有強大的檢索功能和不同搜索引擎間檢索語法規則、字符的轉換功能;要有詳盡全面的檢索結果信息描述;可以支持多種語言檢索。
(7)主要元搜索引擎的介紹
①Dogpile
(1)概述:Dogpile誕生於1996年,是一個老牌的非常受歡迎的元搜索引擎,現在屬於InfoSpace公司,是目前性能較好的統一檢索入口式元搜索引擎之一,集成了諸如Google、Yahoo!等優秀的獨立搜索引擎。Dogpile提出的口號是“Good Dog,Great Results”。最新改版的Dogpile更是增添了許多的功能,加強了Dogpile在元搜索引擎中名列前茅的地位。
(2)檢索功能
①簡單檢索:在Dogpile的簡單檢索界面裏,可以選擇檢索網頁、圖像、視頻、多媒體、新聞、黃頁和白頁。Dogpile的搜索技術十分先進,支持布爾邏輯運算等檢索技術的使用。檢索結果中除了顯示包含有檢索提問的搜索結果外,還提供了檢索結果提示和顯示最近的檢索歷史。
②高級檢索:Dogpile的高級檢索功能比較全面,可以通過輸入檢索提問,並選擇“All of these words”(邏輯與功能)、“The exact phrase”(“詞組”檢索功能)、“Any of these words”(邏輯或功能)、“None of these words”(邏輯非功能)來形成最終的檢索式,或是使用布爾邏輯算符進行組合。
③其他檢索:新改版的Dogpile提供了豐富的檢索功能,它的偏好檢索可以使用戶根據自己的愛好定製個性化的信息檢索服務,並可以保留這種定製,直到用戶下一次改變訂製。同時,它新增加的黃頁檢索和白頁檢索可以檢索企業和個人的相關信息。此外,還允許用戶下載免費的Dogpile檢索工具集成條。
總之,新版的Dogpile是一個非常不錯的元搜索引擎,展現了元搜索引擎發展的最新成果。它將用戶的查詢請求同時向多個搜索引擎遞交,按照自定義的關聯運算法則對得到的結果進行重複排除、重新排序等智能處理後,以優化過的搜索結果返回給用戶。Dogpile爲用戶提供了較爲全面的檢索功能,其檢索結果更易於瀏覽,自動分類技術的應用增強了對檢索結果的組織功能。它還可以自動修正普通的拼寫錯誤,更加方便了用戶對Dogpile的利用。
②Vivisimo
(1)概述:Vivisimo是由卡內基梅隆大學計算機科學系的科學家建立的,源自1998年美國國家科學基金會資助的一個實驗項目,該項目主要是爲了解決信息超載問題。Vivisimo成立於2000年,其目的是將該項目成果開發爲一種穩定的商業產品。Vivisimo的口號是“Information Overload was the Past”(信息超載已成爲過去)。
Vivisimo是一個很有特色的元搜索引擎,它採用了一種專門開發的啓發式算法來集合或聚類原文文獻。這種算法汲取了傳統人工智能思想,強調對檢索結果擁有更好描述和聚類。它的文獻聚類技術將文本信息自動分類,分成了有意義的等級式排列的目錄,它是完全自動化的,不需要人爲地進一步干預,不需要維護。
(2)檢索功能:Vivisimo的檢索功能在元搜索引擎中是一流的,提供了站內檢索和站外檢索功能。站內檢索是對網站內的資源進行檢索。站外具有簡單檢索和高級檢索功能。在簡單檢索界面中,用戶可以直接輸入關鍵詞、詞組或組合的檢索式,它的響應速度也很快。Vivisimo可以提供多種檢索功能,能進行布爾邏輯檢索,用“and”或“+”表示邏輯與,用“or”表示邏輯或,用“not”或“—”表示邏輯非。還可以進行限制檢索,如“domain:”、“link:”、“url:”等。在高級檢索界面裏,用戶可以自由地選擇很多的限定條件,可以選擇具體的Web搜索引擎、新聞搜索引擎、返回的結果條數、語言、顯示格式等。
(3)顯示機制:Vivisimo的顯示機制的網絡檢索工具中顯得尤其突出。在檢索結果的界面上,分爲左右兩個部分。界面的左邊是類目顯示,右邊是具體檢索結果的顯示。站內檢索結果所形成的目錄是Vivisimo預先組織好的,包括News and Events、About US、Other、Blog、Partners五個子類目。站外檢索所形成的等級式的目錄是Vivisimo對檢索結果自動聚類的結果,是Vivisimo核心技術的直接體現。它與Yahoo!人工編制的目錄有很大的差別,Vivisimo的分類目錄在體系結構和邏輯上也不是非常的研究。由於它完全是自動處理的,因而幾乎沒有任何的維護成本。而且,目錄的顯示非常易讀,不需要對用戶加以任何培訓。Vivisimo的自動分類是對檢索解僱ode過程處理,具有很大的隨機性,所以即使輸入相同的檢索提問,每次所得的分類結果也不完全一樣。
總之,Vivisimo是一個功能比較全面的元搜索引擎。它開發的文獻自動聚類技術代表了搜索引擎技術發展的新方向,它細緻的檢索結果顯示機制是目前檢索工具中的佼佼者。
③Ixquick
Ixquick創建於1998年,現屬於Surfboard Holding BV公司。Ixquick的口號是“全球最強大的元搜索引擎”。它以簡潔清爽的界面、靈活創新的風格,成爲元搜索引擎家庭中最具光芒的新星。Ixquick現支持18種語言搜索,其中包括簡體中文和繁體中文,搜索的對象有網頁、視頻、圖片和國際電話。它的搜索數據來自如AllTheWeb、MAN、Yahoo!、Ask等13個搜索引擎。
Ixquick獨創了對檢索結果的排序算法,即“星星體系”。正是由於採用了這樣一種機制,保證了Ixquick有異乎尋常的檢索速度和準確率。它不像大多數元搜索引擎一樣,致力於開發自己的指標體系,而是採取充分肯定和接納的態度,以該記錄被多少個搜索引擎所青睞爲基本衡量標準,獨創了它的“★”的排序方法。
Ixquick檢索結果的輸出格式也十分簡單實用,包括:網頁名稱、文摘描述、URL、源搜索引擎以及該記錄在源搜索引擎中的位置信息等等。如果點擊了某個源搜索引擎,可打開另外一個窗口,全面瞭解該搜索引擎的檢索結果。同時還在檢索結果顯示的頁面上,進行相關檢索。
④萬緯搜索
(1)概述:萬緯搜索是上海萬緯信息技術有限公司開發的一箇中文元搜索引擎,繼承了英文搜索引擎如Google、Yahoo!等和中文搜索引擎如天網、新浪、搜狐、百度等。用戶可根據需要自由選擇其中多個引擎進行同步搜索,搜索結果可按相關度、時間、域名和引擎分類。
(2)檢索功能:萬緯搜索支持簡單檢索和高級檢索,在檢索框中鍵入關鍵詞,選擇好結果顯示數量後,用戶可以點擊“一半查找”或“精確查找”鍵,引擎立即開始搜索。用戶可以自由選擇、設定查詢結果的數量。在高級檢索界面中,除輸入關鍵詞外,還可以進行相關的限定。可以選擇檢索結果的排序方法,有四種選擇:相關度、時間、域名分類、引擎等;可以選擇具體的源搜索引擎;選擇檢索時間等。
(3)特色:萬緯搜索爲用戶提供了多種搜索結果的排序方式,包括相關度、時間、域名分類、引擎等選擇。萬緯搜索是目前一個比較優秀的中文元搜索引擎,在某些方面作了一定的嘗試,但與國外先進的元搜索引擎相比,還存在着不小差距,如檢索功能比較簡單等,有待進一步發展和完善。
⑤MetaCrawler:MetaCrawler是世界上最早出現的元搜索引擎之一,於1994年由華盛頓大學的研究生Erik Selberg和副教授Oren Etzioni創建,次年提供Web服務,2000年加入InfoSpace網絡。它的檢索功能強大,除可以同時檢索Ask、Fast、Google、LookSmart、Open Directory等多個獨立的搜索引擎外,本身還通了包括近20個主題目錄的檢索,提供檢索Web網頁、圖像、聲頻、多媒體、新聞組等信息。
⑥Mamma:Mamma是一個只能元搜索引擎,自稱爲“搜索引擎之母”,創建於1996年。可以調用8個獨立的萬維網搜索引擎(最多同時調用7個),可查詢萬維網、新聞、圖像和聲音文件等資源。
91、網絡數據庫含義
網絡數據庫或稱網絡版數據庫,是指由數據庫生產商在互聯網上發行,通過計算機網絡提供信息檢索服務的數據庫。網絡數據庫具有一般數據庫的特點,同時又有着明顯的網絡化特徵,成爲目前數據庫服務方式的主流。網絡數據庫是一種基於瀏覽器/服務器(B/S)的數據庫,可分爲免費數據庫(只要連入Internet就能使用)和付費數據庫(只有付費獲得授權才能使用)。其中付費的網絡數據庫,稱其爲商業數據庫。
92、網絡數據庫的由來
隨着計算機網絡技術和計算機存儲技術的發展,基於數據庫的信息檢索大致經歷了三個主要的發展階段。
①第一階段:20世紀70年代初至80年年代中期,爲專線聯機階段。DIALOG稱雄時代,DIALOG聯機檢索系統成爲了信息檢索服務業的龍頭公司。專線聯機檢索使數據庫進入了現代化服務階段。我國通過數據通信專線與DIALOG聯機的終端20年沒有普遍發展,大都設置在研究機構或大學裏,不可能個人擁有,而且操作繁瑣,只能使用複雜的指令式檢索方式,一般受限於受過專門訓練的情報檢索人員使用,檢索費用也比較高。因此,妨礙了機器檢索的普及。
②第二階段:20世紀80年代中期至90年代中後期,爲光盤數據庫階段。光盤具有存儲量大、體積小、便於攜帶和保存等諸多優點,成爲數據庫的極好載體。光盤促使數據庫進入大發展時期,使數據庫的用戶大大增加,普通用戶開始享受到機器檢索的方便快捷。
③第三階段:20世紀90年代中後期至今,爲網絡數據庫階段。從1998年起上網的數據庫激增,並顯示出Internet網絡數據庫技術的進一步發展,數據庫提供商在網絡數據庫信息傳遞服務方面趨於成熟。目前幾乎所有大型數據庫都已建成網絡數據庫,提供遠程信息檢索服務。
93、網絡數據庫的優勢
(1)信息容量大、增長迅速、更新及時:目前,數據庫生產已形成規模,走向產業化和商業化,這就使得網絡數據庫的整體發展呈現出以下兩個特點:一是數據庫規模大、數據量多、增長迅速。二是數據更新速度快、週期短。
(2)使用方便,界面友好:WWW瀏覽器爲用戶提供了便捷的信息查詢方式,用戶只要擁有一臺上網的計算機,並擁有使用數據庫的授權,就可隨時查檢所需要的網絡數據庫,這種服務方式不僅優於單機使用的光盤數據庫,而且在查詢技巧上也比檢索指令複雜的聯機數據庫簡潔方便。同時,網絡數據庫面向大衆用戶,檢索界面清晰友好,表現生動形象,易於理解,便於使用。另外,允許用戶對要查找的信息資源進行選擇和限定。
(3)檢索功能強大:網絡數據庫具有較爲強大的檢索功能,查全率和查準率比較高。可以提供不同層次的檢索方式。另外,網絡數據庫的回溯檢索能力雖然無法與聯機數據庫相比,但與網絡檢索工具和光盤數據庫相比,還是比較強的。
(4)檢索結果的顯示與輸出形式靈活、多樣:比較成熟的網絡數據庫一般都提供靈活多樣的檢索結果顯示形式,用戶可以按照自己的需要選擇檢索結果顯示的排列方式。大部分網絡數據庫給用戶提供了更靈活的輸出方式,用戶可以直接對檢索結果進行存盤和打印,可利用E-mail發送檢索結果,抑或直接在網上訂購文獻全文。
(5)可在異地建立鏡像站點:網絡數據庫不需要本地驅動器和相應的服務器等硬件設備,利用Internet的服務和FTP功能,網絡數據庫可以在不同地區建立它的鏡像站點,這樣不僅使用戶獲得最佳的檢索效果,而且節省時間與傳輸距離,突破空間限制,實現異地遠程檢索。
(6)原文獲取功能強:全文型的網絡數據庫直接爲用戶提供了獲取全文的服務,同時一些書目索引文摘等二次信息數據庫也與全文數據庫之間建立鏈接,幫助用戶迅速、直接訪問、獲取所需原始文獻信息,增強數據庫的全文提供能力。
(7)較強擴展整合功能:網絡數據庫除了爲用戶提供信息查詢服務外,還提供有多種整合功能。首先,網絡數據庫可以與圖書館館藏進行鏈接與整合。其次,網絡數據庫與其他數據庫進行鏈接與整合。
(8)可提供多種服務形式:許多網絡數據庫在滿足用戶查詢信息的基本要求的前提下,也開發了一些其他的電子信息服務。主要包括:文獻傳遞服務和定題服務。文獻傳遞服務指當用戶從二次信息數據庫中查到所需信息並希望得到文獻全文時,可以通過電子方式在線訂購該文獻全文。定題服務,是根據用戶需求,定期不斷地將符合用戶需求的新的信息傳送給用戶的一種服務模式。
94、網絡數據庫的評價
網絡數據庫作爲一種重要的電子資源,已成爲人們獲取信息的重要來源。根據特定的方法評價網絡數據庫的優劣對我們選擇、開發和優化數據庫資源有着非常重要的意義。
(1)數據庫內容:內容是數據庫的核心,是評價一個數據庫的首要標準。數據庫內容的評價指標主要包括文獻的收錄範圍、權威性與連續性、時間跨度、文獻總量、更新頻率、全文佔有量等。
評價數據庫文獻的收錄範圍,主要是分析其所覆蓋的學科範圍是否與服務需要相符,期刊數量是否全面。
對數據庫收錄文獻的權威性與連續性進行評價,也是一種對文獻外部特徵進行的評價。就權威性而言,判斷的依據主要看數據庫文獻是如何進行選擇的,其收錄的文獻的來源機構是什麼。學術性、權威性和專業性較強的出版社、學會或專業機構出版的刊物往往具有非常高的權威性,能夠得到廣泛的認可。期刊第一次被收錄的時間、收錄期間的期數,是否存在缺年或缺期等不完整的情況,則反映了文獻的連續性,一份連續性較強的刊物所具有的的學術價值會比較高。
內容的時間跨度是指期刊收錄的起止年限,時間跨度越大學術價值越高;文獻問題並非越多越好,但是文獻總的種類和篇數多的數據庫往往具有較高的價值;文獻的更新頻率會影響到用戶對數據庫的使用體驗,更新越及時越能體現數據庫的新穎性和實效性;即使是全文數據庫,也不能保證文獻都是全文收錄,因而全文佔有量也是衡量數據庫內容的一個重要指標。
(2)檢索功能:對檢索功能的評價主要有以下四個方面的指標:用戶界面、檢索手段、檢索技術和檢索效果
①用戶界面的設計應該簡潔明瞭,符合用戶的視覺特點和閱讀方式,便於用戶檢索。同時,如果界面能夠根據用戶的不同需求進行個性化的設定,將更加方便用戶的使用。
②一個數據庫檢索功能的優劣還和檢索手段有關。一個好的檢索系統提供的檢索手段不僅有初級、高級、分類檢索等,還應該覆蓋文獻的各種外部信息,如篇目、作者、關鍵詞、摘要等。
③檢索技術主要是看數據庫在用戶檢索時是否允許用戶使用布爾邏輯運算符、通配符運算,是否支持檢索項的擴展和跨庫檢索等,以及在顯示檢索結果時是否允許用戶對檢索結果進行自主設置。
④檢索效果則主要是通過檢索結果的查全率和查準率,檢索速度等指標來衡量。提高查全率或者查準率,同時縮短檢所花費的時間也有助於提高數據庫的評價。
(3)數據庫的服務:數據庫的服務與檢索的過程和結果無關,但是卻依然會影響到數據庫的使用。
95、網絡數據庫的檢索方式
網絡數據庫將數據庫存放在遠程服務器上,用戶可通過Internet直接訪問,也可通過Web服務器或中間服務器訪問。對用戶而言,網絡數據庫的檢索方式有以下幾種:
(1)免費檢索:對於免費Web數據庫,用戶在選定數據庫並輸入檢索提問式後,就可以進行查找並顯示出符合條件的所有記錄。網上免費數據庫一般多是題錄數據庫或文獻數據庫,只能檢索到文獻的題錄或者文摘,不能看到全文。
(2)普通用戶檢索:對於計費數據庫,在選定計費數據庫並輸入檢索提問式後,就可以進行檢索,並顯示出符合條件的記錄;但每條記錄只顯示部分字段內容,不能看到全部字段內容。
(3)授權檢索:對已經申請註冊並擁有合法用戶名、口令的用戶,在選定計費數據庫,輸入用戶名和口令,並輸入檢索提問式後,就可以顯示出符合條件的所有記錄和記錄的全部內容。
96、網絡數據庫的檢索步驟
(1)檢索課題的主題分析:實施檢索前,首先要對所檢主題進行深入研究,確定檢索的主題概念。
(2)數據庫的選擇:應根據所檢課題的學科範圍或主題概念來選擇相關的數據庫。網絡數據庫很多,應首選與該課題有關的最具權威性的和數據容量大的網絡數據庫,在此基礎上還可選擇一些與其主題概念密切相關的網絡數據庫作爲補充。選擇好數據庫後,進入載有網絡數據庫的站點,或可直接進入網絡數據庫生產商的網址進行檢索。
(3)檢索策略的選擇:依據對課題主題分析的結果,確定檢索詞和檢索式,將檢索需求轉換爲網絡數據庫認可的檢索式。這是網絡數據庫檢索過程中重要的環節之一。
(4)實施檢索:輸入擬定的檢索式或檢索詞,開始檢索。
(5)檢索策略的優化:在對檢索結果進行分析後,可根據需要改進或改變檢索策略,各種不同的網絡數據庫的優化技巧各不相同。
(6)輔助性檢索:可以依據網絡數據庫所提供的一些輔助檢索功能,進行相關的檢索,或者進一步精確檢索結果。
(7)檢索結果的輸出:網絡數據庫檢索結果的輸出形式各不相同,大致有:存盤、打印或E-mail。
97、中文網絡數據庫發展概況
隨着當代通信技術、網絡技術的飛速發展,國際數據庫產業得到突飛猛進的發展,數據庫規模不斷擴充,採用了商業化的經營模式,許多企業在數據庫產品的開發和服務中發揮了重要的作用。在這樣一個國際大環境下,伴隨着中文網絡資源建設,我國的數據庫市場飛速發展,而且表現出更爲巨大的增長潛力。此間,越來越多的數據庫開始提供基於互聯網的數據庫服務。縱觀中文網絡數據庫的發展,在國內網絡信息服務市場上,形成了3個大型的期刊網絡數據庫集成化中心,即CNKI中文系列數據庫、萬方數據資源系統和維普信息資源系統。
(1)CNKI工程即中國知識基礎設施工程:是採用現代信息技術,建設適合於我國的可以進行知識整合、生產、網絡化傳播擴散和互動式交流合作的一種社會化知識基礎設施的國家級大規模信息化工程,由光盤國家工程研究中心、清華同方光盤股份有限公司、中國學術期刊(光盤版)電子雜誌社和清華同方教育技術研究院聯合承擔。CNKI推出的中文系列數據庫有:《中國期刊全文數據庫》、《中國學術期刊題錄數據庫》、《中國重要報紙全文數據庫》、《中國圖書全文數據庫》、《中國專利數據庫》、《技術創新數據庫》、《中國學位論文全文數據庫》、《中國重要會議論文數據庫》等。
(2)萬方數據資源系統:是北京萬方數據股份有限公司在中國科技信息研究所數十年積累的全部信息服務資源的基礎上建立起來的,形成以科技信息爲主,集經濟、金融、社會、人文信息爲一體,實現網絡化服務的信息資源系統。
(3)維普信息資源系統:是由重慶維普資訊有限公司研製開發的網絡信息資源,致力於報刊等信息資源的深層次開發和推廣應用,集數據採集、數據加工、光盤製作發行和網上信息服務於一體。
在中文網絡數據庫中,全文數據庫越來越佔據主導地位。《中國期刊全文數據庫》、維普的《中文科技期刊數據庫》(全文版)和萬方資源系統的數字化期刊羣是全文網絡數據庫中的優秀代表。我國信息基礎設施的建設和完善,爲我國信息資源的共建共享提供了良好的網絡環境。網絡數據庫作爲資源數字化的重要形式,作爲網絡資源共享的重要載體,將會得到更大的發展。
98、國內外網絡數據庫
(1)ProQuest系列數據庫
(1)概述:ProQuest系列數據庫是ProQuest Information & Learning公司通過ProQuest系統提供的一組數據庫,內容涉及商業管理、社會與人文科學、新聞、科學與技術、醫藥、金融與稅務等廣泛領域。1985年,該公司收購了數據收集與生產公司UMI,並使其成爲縮微膠片產品的品牌。1996年其公司開始推行數據庫的網絡信息服務。該公司Web版數據庫的主要特點是將二次信息與一次信息捆綁在一起,爲最終用戶提供文獻獲取一體化服務,用戶在檢索文獻索引時就可以實時獲取大部分全文信息。
(2)檢索功能:該系列數據庫檢索功能完善,檢索方法多樣,包括基本檢索、指南檢索、高級檢索、自然語言檢索、出版物檢索等,在一定程度上體現了英文數據庫的檢索特色。
①基本檢索:進入數據庫後,默認的界面爲基本檢索界面。基本檢索操作簡便,查詢速度快,在檢索框中輸入一個單詞、詞組或短語就可以進行檢索。但檢索結果過於寬泛。
②高級檢索:系統支持組合檢索,實現檢索詞間的組配關係。提供的邏輯算符包括:AND、OR、AND NOT等。同時,ProQuest還可以限定檢索詞出現的字段,如文摘、作者、主題、文獻類型等。
③主題檢索:可以方便用戶瀏覽和檢索某一主題範圍的文獻。有檢索主題和主題瀏覽兩種方式。
④出版物檢索:檢索某一種特定出版物的全文,包括對某一特定期卷內容的檢索。用戶在已知刊物的情況下,可以通過出版物檢索來檢索和瀏覽文章。這種檢索方法比較適合對整刊的瀏覽。
(2)EBSCO系列數據庫
EBSCO公司是世界上最大的提供期刊、文獻訂購及出版服務的專業公司之一,Academic Search Premier(《學術期刊數據庫》)和Business Source Premier(《商業資源數據庫》)是EBSCO公司最重要的網絡版數據庫。
(1)數據庫的選擇:通過EBSCO設在國內的鏡像站點,選擇“Business Searching Interface”直接進入Business Source Premier數據庫,而選擇“BSCOhostWeb”或“BSCOhost Text Only”則進入數據庫選擇頁,在數據庫選擇頁就可以勾選需要檢索的數據庫了。
(2)數據庫的檢索:EBSCOhost提供三類檢索方法:基本檢索、高級檢索和視覺檢索。
①基本檢索:用戶除了可以選擇是否只是全文檢索、文獻出版時間、出版物名稱和類型等限定條件之外,還有擴展條件,如“也可以搜索相關關鍵詞”、“也可以在文章的全文範圍內搜索”等。
②高級檢索:可以將檢索項設爲“All text”(全文)、“Author”(作者)、“Title”(題名)“Abstract”(摘要)等進行檢索;檢索語句間使用“and”(與)、“or”(或)、“not”(非)連接。同基本檢索相比,高級檢索除具備了初級檢索的所有功能外,還增加了“Cover Story”,表示僅檢索具有深度報道的封面故事文章。
③視覺搜索:是概述數據庫中特有的圖形檢索方法,使用簡單方便。使用視覺搜索可在廣泛的主題中高效地進行搜索,之後返回結果的視覺導航圖,並按主題進行排列。
(3)Web of Science(三大引文數據庫)
(1)概述:Web of Science是美國Thomson Scientific公司基於WEB開發的產品,包括三大引文庫(SCI、SSCI和A & HCI)和兩個化學數據庫(CCR、IC),以ISI Web of Knowledge作爲檢索平臺。三大引文數據庫包括:《科學引文索引》(SCI),收錄6300多種科學技術期刊;《社會科學引文索引》(SSCI),收錄1800多種社會科學期刊;《藝術和人文科學引文索引》(A & HCI),收錄1100多種藝術與人文類期刊。
Web of Science可以極大地方便用戶查找文獻資料。通過引文檢索功能,我們不但可以查找相關研究課題各個時期的學術文獻,獲取論文摘要,而且還可以得到所引用參考文獻的記錄、被引用的情況及相關文獻的記錄,等等。這就爲文獻研究,以及獲取文獻原文找到了一個方便的途徑。
(2)檢索功能:Web of Science的檢索分爲基本檢索、被引文獻檢索、結構檢索和高級檢索。
①基本檢索:主要按文獻的主題、篇名、作者、期刊名、出版年份等進行檢索。
②被引文獻檢索:主要按被引文獻的特徵檢索,包括被引用的作者、被引用的期刊名或者書名、文獻發表的年份。
③結構檢索:主要針對兩個化學數據庫(CCR, IC),檢索化合物、化學反應、化學結構等。這部分數據庫內容需要安裝Web of Science的查檢,幾乎沒有文獻內容。
④高級檢索:需要用戶組配好檢索式進行提問。高級檢索較基本檢索和被引文獻檢索多了兩個區域,一個是“檢索字段代碼和布爾邏輯運算符”區,另一個是“語言和文件格式選項”區。
(3)研究分析功能:Web of Science不僅是世界著名的檢索工具,也是一個評價學術水平的工具。其分析工具使用非常方便,可以幫助研究人員方便地對文獻信息進行統計。
(4) ABI/INFORM:ABI/INFORM數據庫是UMI公司出版、在歐美大學普遍應用的著名商業經濟類數據庫。該數據庫涵蓋的學科範圍有才會、銀行、商業、計算機、經濟、能源、工程、環境、金融、國際貿易、法律、管理等,涉及這些行業的市場、企業文化、企業案例分析、公司新聞和分析、國際貿易與投資、經濟狀況和預測等方面。ABI數據庫共收錄期刊3800多種,其中收錄全文刊2800種,被SSCI和SCI收錄的期刊有400多種。
(5)Academic Search Premier :簡稱ASP,是全球最大的學術參考全文資料庫之一。由EBSCO公司提供。收錄有關工商經濟、資訊科技、人文科學、社會科學、通信傳播、教育、藝術、文學、醫藥、通用科學等領域的期刊4000多種,其中3000多種爲全文刊(最早回溯至1975年)。被SCI收錄的核心期刊爲993種(含全文看350種)。該庫收錄圖書館學和信息科學方面的期刊共85種(其中全文刊54種)。
(6)Business Source Premier:簡稱BSP,由EBSCO公司提供。收錄2800種全球商業相關活動刊物的索引及摘要,含2300種全文期刊(最早回溯至1965年),被SCI收錄的核心全文期刊238種。涉及主題範圍有國際商務、經濟學、經濟管理、金融、會計、銀行等。
(7)Academic Research Library:學術研究圖書館(Academic Research Library,簡稱ARL)是一個綜合參考及人文社會科學期刊論文的數據庫,涉及商業與經濟、教育、歷史。傳播學、法學、科學、醫學、藝術、社會學等學科,收錄2300多種期刊和報紙,其中全文刊佔三分之二。可檢索1971年來的文摘和1986年來的全文。
(8)SpringerLink:德國施普林格是世界上著名的科技出版集團,由它開發的SpingerLink系統可以提供其學術期刊及電子圖書的在線服務。SpringerLink中的期刊及圖書等所有資源劃分爲12個學科,一共收錄了千餘種期刊和700多種叢書。
(9)《中國期刊全文數據庫》
(1)概述:《中國期刊全文數據庫》是我國第一個連續的大規模的集成化、多功能學術期刊全文檢索系統,是中國知識基礎設施工程CNKI中最重要的數據庫之一。1999年6月,在原光盤數據庫的基礎上,正式開通了它的網絡版。
《中國期刊全文數據庫》收集面廣、內容豐富、信息量大。收錄有國內8200種期刊全文,其中核心期刊80%左右,年新增文獻達100多萬篇,這些期刊覆蓋了自然科學、工程技術、農業、哲學、也學、人文社會科學等個各個領域,全文文獻總量2300多萬篇,全部期刊分爲10個專輯。用戶可以在線瀏覽、章節下載、整本下載、分頁下載。數據庫每日更新。主要提供初級檢索、高級檢索和專業檢索,以及期刊導航等。
(2)檢索方法
①初級檢索:登陸《中國期刊全文數據庫》→選取檢索途徑→輸入檢索詞→進行檢索→檢索結果的優化與處理→相似詞顯示→檢索相關信息的鏈接
②高級檢索:利用高級檢索系統能進行快速有效的組合查詢,優點是查詢結果冗餘少、命中率高。對於命中率要求較高的查詢,建議使用該檢索系統。該系統可組合檢索項:最多有10個檢索項,可以依次輸入檢索條件,然後選擇與(and)、或(or)、非(not)操作,這樣就可以進行快速準確的組合查詢。檢索結果的處理:檢索的結果可以在線瀏覽,也可以下載。
③專業檢索:專業檢索比高級檢索功能更強大,允許用戶按自己需要組合邏輯表達式,進行更精確的檢索,但需要檢索人員根據系統的檢索語法編制檢索式進行檢索。適合於熟練掌握檢索技術的專業檢索人員。
(10)萬方數據庫資源系統:萬方數據資源系統是建立在互聯網上的大型綜合性信息資源系統,由中國科技信息研究所開發製作。該數據庫大多實行有償服務。收錄內容以科技信息爲主,同時涵蓋經濟、文化、教育等相關信息。萬方數據資源系統2001年全新改版後,被整合科學信息子系統、商務信息子系統和數字化期刊子系統3個部分。科技信息子系統面向廣大科技工作者提供全方位的科技信息,共有科技文獻、名人與機構、中外標準、科技動態、政策法規、成果專利6個欄目,各欄目中包含大量相關數據庫資源;商務信息子系統面向企業用戶推出工商諮詢、經貿信息、成果專利、商貿活動等欄目;數字化期刊子系統共集納了100多個類目的6000多種核心期刊全文內容上網。其中,數字化期刊子系統被廣泛應用於各高校,成爲我國重要的期刊全文數據庫之一。提供分類檢索、高級檢索和印文件所三種方法。
(11)《中文科技期刊數據庫》:《中文科技期刊數據庫》是由重慶維普資訊有限公司推出,爲全文數據庫。源於1989年創建的《中文科技期刊篇名數據庫》,其全文和題錄文摘版一一對應。數據庫按照《中國圖書館分類》進行分類,所有文獻被分爲8個專輯,總共包含了1989年至今的9000餘種期刊刊載的1500餘萬篇文獻,並以每年250萬篇的速度遞增。目前已成爲我國圖書情報機構、教育機構、科研院所等系統必不可少的基本工具和獲取資料的來源。《中文科技期刊數據庫》有9種檢索入口可供選擇,包括關鍵詞、刊名、作者、第一作者、機構、題名、文摘、分類號、任意字段。提供學科分類導航和刊名導航系統。該庫還提供二次檢索和複合檢索,允許用戶直接輸入符合檢索式。檢索符號的對應關係爲“
”爲邏輯與、“+”爲邏輯或、“—”爲邏輯非。
(12)《中國社會科學引文索引》:《中國社會科學引文索引》由南京大學中國社會評價研究中心研製,是教育部人文社會科學重大研究項目,是我國人文社會科學文獻信息查詢與評價的重要工具。該數據庫選用了我國出版的中文人文科學、社會科學學術期刊496種,來源文獻50萬餘篇,被引用文獻300餘萬篇,是我國社會科學研究評價的重要工具。它主要從來源文獻和被引文獻兩個方面向用戶提供信息。前者主要用來查詢本索引所選用的源刊的文章的作者(所在單位)、篇名、參考文獻等,後者主要用來查詢作者、論文、期刊等的被引情況。
(13)中國資訊行:中國資訊行是中國香港專門收集、處理和傳播中國商業信息的高科技企業,爲世界各地各行各業的公司和研究機構提供經濟新聞、商業報告、統計數據、科研資料等信息。數據每日更新。
(14)國務院發展研究中心信息網:簡稱國研網,通過它可以查詢《國務院發展研究中心調查研究報告》(簡稱《國研報告》),《國研報告》是國務院發展研究中心專家不定期發佈的有關中國經濟和社會諸多領域的調查研究報告。通過《國研報告》,用戶可以獲得全面的、具有政策意義的研究資料。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章