【信息檢索教程】【01信息檢索基礎】【背誦】

信息概述

信息(廣義狹義)
零次信息(口頭)
一次信息(未整理)
二次信息(有序化)
三次信息(分析、加工、綜合研究)
信息檢索(廣義:存儲和檢索 狹義:檢索)信息需求與信息集合的匹配
如何理解信息的分類(加工程度、媒體類型、內容、出版發行特點)
信息檢索系統及其分類(手工、計算機)
信息檢索方法(直接瀏覽法、常用法、追溯法、綜合法)
信息檢索效果評價的指標(查全率、查準率、漏檢率、誤檢率)
影響信息檢索效果的因素(著錄標引質量、檢索語言性能、檢索途徑數量、檢索策略優略、檢索人員素質)

信息的含義(廣義狹義)

廣義信息自然界和一切人類活動所傳達出來的信號和消息,是事物表現的一種普遍形式。信息的本質上——信息是事物自身(顯示其存在方式或運動狀態)的屬性,是客觀存在的現象。狹義信息——經過蒐集、記錄、處理和存儲的可供檢索的文獻,數據和事實。它是人類對客觀事物的認識,是實踐經驗的總結,是認識的結果,是檢索的對象

信息鏈(補充 09華師名詞)

information chain——由事實facts→數據data→信息information→知識knowledge→智能/情報intelligence五個鏈環構成的。事實、數據、信息、知識、情報/智能五個鏈環組成信息鏈。
在信息鏈中,信息的下游是面向物理屬性的,上游是面向認知屬性的。作爲中心鏈環的信息既有物理屬性也有認知屬性,因此成爲信息鏈的代表稱謂
信息>知識>文獻

信息的特徵 8個

可存儲性、 可傳遞性 、可轉換性、可處理性、可共享性、可識別性、依附性、普遍性。信息的兩種基本狀態:可存儲性和可傳遞性

  1. 可存儲性——可以有意識地將流動的息以某種方式存儲在物質媒介上,構成穩態結構以供利用
  2. 可傳遞性——有空間傳遞和時間傳遞等不同類型,依賴物質載體,具有動態性和方向性的特徵
  3. 可轉換性——表現在兩個層面。信息在一定條件下可轉化成物質,能量,金錢等其他東西,這種轉換主要依靠人類對信息的正確利用。信息可以從一種形態轉化成爲另一種形態,自然信息可以轉換爲語言,文字和圖像,也可以轉換爲電磁波信號或計算機代碼。
  4. 可處理性——分類、整序、分析、綜合和壓縮、擴充等加工處理
  5. 可共享性——同一信息可以同時被許多人共同享用
  6. 可識別性——直接、比較和間接識別等方式
  7. 依附性——信息無法脫離物質而獨立存在。信息與物質載體構成一個整體。信息載體泛指一切載有信息的物質載體。
  8. 普遍性——信息是物質的基本屬性,物質的普遍存在導致了信息的普遍性

信息的功能

在這裏插入圖片描述

信息的類型

在這裏插入圖片描述
基於廣義信息概念的信息分類
信息的產生(社會、自然)社會實踐活動、自然界
信息的運動狀態(自在、自爲、再生)未被把握和反映、已被把握、經過加工向外界輸出

基於狹義信息概念的信息分類

  1. 媒體類型(印刷、縮微、視聽、機讀)
    印刷型信息——以紙張爲媒介,如報紙、雜誌
    縮微型信息——以感光材料爲媒介,如微縮膠捲卡片
    視聽型信息——存儲在磁帶、光盤載體中,由計算機輸出提取
    機讀型信息——電影、唱片、幻燈、錄音帶

  2. 按照信息的加工程度分(零次、一次、二次、三次)

【零次信息】人際交流中口頭攜帶和傳播的信息,產生於交流過程

特點

  • 選擇性和針對性較強,交流速度快,反饋及時
  • 偶然性大,而且未經記錄和加工,不便於積累於檢驗,獲取難度大

【一次信息/原始信息】未經過加工或粗加工的原始信息資源,是人們在社會實踐活動中直接產生或得到的各種數據、概念、知識、經驗及總結

特點

  • 數量龐雜且分散無序
  • 內容比較具體、豐富,具有新穎性、創造性、系統性等特點

【二次信息/檢索工具】對一次文獻進行加工整理使之有序化形成的信息。
二次信息的主要表現形式有目錄、文摘、索引等,有時也稱二次信息爲檢索工具

特點

  • 易於存儲檢索傳遞和使用,具有較高的使用價值。具有濃縮性、彙集性、有序性、系統性、工具性等特點。具有傳遞、報道信息的功能

【目錄】指對圖書、期刊或其他單獨出版文獻的特徵進行揭示和報道,並按照一定的方法加以編排的二次信息。
【文摘】以單篇或單本文獻爲報道單位,不僅記錄一次信息的外表特徵,還要客觀地闡明深入的信息內容,是對原始信息的濃縮,有助於我們對原文的瞭解。
【索引】是將原始信息中的各種知識單元進行抽取,按照一定的原則和方法進行排列的二次資源。這些知識單元可以是篇名、人名、名詞術語、關鍵詞、分子式等等。二次信息具有傳遞信息、報導信息的功能,更重要的是爲查找一次信息提供線索。它具有系統性、工具性等特點。

【三次信息】對零次、一次、二次文獻進行分析、加工、綜合研究後而成的信息

特點

  • 信息量大、綜合性、系統性強系統性好、參考性、針對性等特點

綜述——將大量分散的有關特定課題的文獻、事實和數據進行歸納、分析、綜合、篩選。以簡練的文字扼要敘述出來,內容十分開過,述而不作是撰寫綜述的一般要求。綜述要客觀全面的整理,分析。
述評——針對某一學科或者某一問題,全面系統的總結各種情況、觀點和數據,並給予精闢的分析評價。有述有評是述評最爲突出的特點。

一次文獻:期刊論文、技術報告、學位論文
二次文獻:加工整理簡化排序(大多數的檢索工具)
三次文獻:綜述、評論、分析或預測發展趨勢
期刊文獻型(xx綜述、現狀、進展、述評、評論)
圖書文獻型(參考工具書:辭典、百科全書、年鑑、手冊)

  1. 按信息內容(經濟、科技、政務、文化、教育、軍事)

  2. 按信息出版發行特點(出版正式、非出版正式)

【出版正式信息】圖書、期刊、報紙等
期刊 periodical (雜誌 journal、連續出版物 serials)
是一種具有統一名稱、固定版式、統一開本、連續編號,彙集多位著者的多篇著述,定期或不定期編輯發行的出版物

期刊的主要檢索工具(數據庫)
文摘數據庫:題錄、摘要、語言、作者、關鍵詞
題錄:題名、著者、出處等,描述文獻外部特徵的條目

  • 中文期刊全文數據庫——《中文科技期刊全文數據庫》(維普)、《中國期刊網全文數據庫》(CNKI、知網)、《中國數字化期刊羣》(萬方)、中國國家科技圖書文獻中心(NSTL)的期刊數據庫、讀秀等
  • 外文期刊文摘數據庫 SCI(ISI Web of Science)
  • 外文期刊全文數據庫 Springer、ProQuest Library

【半/非正式出版信息】——特種文獻/灰色文獻 不經過公開出版物 流通渠道、不大量發行、爲一部分用戶使用的內部文獻信息資料會議文獻、學位論文、政府出版物、研究報告、檔案、專利文獻、標準文獻等

網絡環境下的信息變化

在這裏插入圖片描述

因特網對信息的影響

  • 因特網引發了信息新的出版形式——網絡出版,形成了新型的網絡信息資源
  • 因特網使人類傳統的信息交流方式發生了根本性的變化
  • 因特網推動了信息處理技術發展

網絡環境下信息的新特點

  • 信息類型多樣化
  • 信息的數量和內容都得到了極大的豐富
  • 信息在分佈上呈現出明顯的分散性
  • 信息共享程度提高

信息檢索的概念

在這裏插入圖片描述
廣義概念:將信息按照一定的方式組織和存儲起來,並根據信息用戶的需要找出有關的信息過程,全稱信息的存儲與檢索。從廣義上講,信息檢索包括兩個過程
一是信息存儲(information storage),即信息的標引、加工和存儲過程
二是信息檢索(information retrieval),即信息用戶的查找過程
狹義概念:僅指信息獲取。實質上是實現信息需求與信息集合的匹配

通過一定的方法從已存儲的信息中檢索出與用戶提問相關的文獻、數據、事實的過程,即根據用戶的特定要求找出所需信息的過程。

信息檢索的原理

  • 信息檢索原理是將特定的信息需求存儲在檢索系統中的信息標識進行異同的比較與匹配,選取兩者相符或部分相符的信息予以輸出
  • 檢索系統對所要存儲的信息,按照其外部特徵和內容特徵進行描述並賦予特徵標識,然後存入系統;檢索時,將所需信息的特徵標識所存信息的特徵標識進行比較。凡是兩邊標識一致的,就將具有這些標識的信息從檢索系統中輸出。

信息檢索方法/特點

直接瀏覽法:直接閱讀原文瀏覽最新目次(不全面、不繫統、侷限性大)
常用法:(順查法、倒查法、抽查法)順查法(查全率提高、由遠及近)倒查法(效率高、由近及遠)抽查法(效率高、效果好)
追溯法:(已有所列,參考追溯)(檢索工具不全,可達到一批相關文獻關係較小較遠,參考價值不大)
綜合法:常用追溯法,全面準確效果好

信息檢索類型

  1. 按存儲與檢索對象(文獻、數據、事實)
  2. 按存儲的載體和實現查找的技術手段(手工、機械、計算機)
  3. 檢索途徑(直接、間接)

類型

  • 文獻檢索Document Retrieval (相關性檢索)
  • 數據檢索Data Retrieval (確定性檢索)
  • 事實檢索fact Retrieval (確定性檢索)

信息檢索的意義

  • 是有效利用信息資源,實現其最大價值的科學方法
  • 再學習的工具,是獲取知識的有效途徑
  • 有效提高科研工作效率,節省人力物力時間

信息檢索的發展趨勢

  • 傳統信息檢索向全文文本、多媒體、多載體、多原理等新型信息檢索的發展,在深度上提高管理和組織信息的能力
  • 信息資源的網絡化和分佈化,面向互聯網中海量的信息資源,在廣度上提高管理和組織能力

信息檢索系統

information system
信息檢索系統的概念根據特定的信息需求而建立起來的一種有關信息蒐集、加工和檢索的程序化系統。主要目的是爲人們提供信息檢索服務。(工具書、數據庫或搜索引擎等)
組成要素信息、檢索技術設備、檢索語言及方法

信息檢索系統包括信息的存儲和獲取,分別對應信息的輸入和輸出過程。
存儲部分的主要功能是通過著錄標引,編制檢索工具,建立數據庫手段使信息有序化;
檢索部分的主要功能是通過檢索策略實現利用者提問與信息的有效匹配
信息輸入:標引是信息的組織和管理過程中最重要的環節。標引即通過對信息的分析,選用確切的檢索標示,用以反映該文獻內容的過程。標引完成後,信息就進入某種形式的數據庫,而標引記錄則進入二次信息數據庫,在二次信息數據庫中,按便於檢索的方式,對標引加以組織
信息輸出:用戶羣向信息中心交送提問,中心的工作人員則爲其編制檢索策略,或者由用戶直接對信息檢索系統提問,標準檢索策略。

檢索策略的編制

包括概念分析和轉換兩個步驟

  • 對用戶提問進行分析,確定用戶實際上找的什麼
  • 把概念分析轉換成詞彙,轉換成系統語言的提問,並將檢索提問以系統系統認知的檢索式表達出來

檢索策略編制完成後,就以某種方式將其事先存儲好的數據庫進行匹配,再將結果返回給提問者

信息檢索系統的物理結構和邏輯結構

物理結構:

  • 硬件:計算機、外圍設備、與數據處理/傳遞的其他設備
  • 軟件:計算機程序,控制各部分協調工作。並完成各項功能程序和各種數據
  • 數據庫:存放於計算機存儲設備中的數據集合

檢索系統的構成(02北師)
具有對信息的輸入、存儲、處理、輸出、控制功能。6個主要的子系統
邏輯結構

  • 信息選擇子系統(蒐集相關信息資源)
  • 信息索引子系統(分析基礎上,選擇正確的信息標識)
  • 詞表管理子系統(管理和維護已有詞表,支持用戶的各種詞彙查詢工作)
  • 檢索子系統(進行檢索)
  • 用戶同系統之間交互子系統(與用戶交流,明確用戶的真實信息需求)
  • 匹配子系統

信息檢索系統的分類

手工檢索系統(書本式和卡片式)和計算機檢索系統(硬件、軟件、數據庫)
手工檢索系統:以印刷型檢索工具爲基礎
書本式:目錄、索引、文摘、百科全書、年鑑、手冊
卡片式:書名目錄、著者目錄、分類目錄、主題目錄
計算機檢索系統:硬件、軟件、數據庫組成
數據庫:database,至少一種文檔組成,並能滿足某一特定目的或某一特定數據處理系統需要的一種數據集合。分爲參考數據庫和源數據庫兩種。
參考數據庫:書目數據庫(二次信息數據庫)/指南數據庫
源數據庫:數值數據庫/文本-數值數據庫/全文數據庫/術語數據庫/圖像數據庫/多媒體數據庫

參考數據庫:爲用戶提供信息檢索的數據庫,指導用戶獲得原始信息。包括書目數據庫和指南數據庫

信息檢索效果評價

信息檢索系統不斷趨於完善的重要依據。獲得讓客戶滿意的檢索效果是每一個信息檢索系統追求的目標,而系統本身又無法完成自我調節需要外在環境的監督和指引。通過檢索效果評價,可以準確地掌握系統地各種性能和水平,找出影響檢索效果的各種因素,從而有的放矢地改進系統地性能,提高系統地信息檢索能力。

信息效果評價主要從三個方面進行(07華師 簡答)

檢索結果有效性,檢索系統實用性、檢索費用——效率評價

  • 檢索結果有效性評價,主要以查全率和查準率爲評價標準;
  • 檢索系統實用性的評價,包括系統對用戶是否需要,是否實用,有多大的實用效果,即檢索的社會效果的評價,需要應用社會學方法;
  • 檢索費用——效率評價,即檢索的經濟效果的評價,包括檢索系統完成檢索服務的成本及時間消耗,需要應用經濟學方法。

信息檢索效果評價的意義

信息檢索效果是指信息檢索系統檢索的有效程度,它衡量了檢索結果對用戶需求的滿足程度,是檢索系統性能的直接反映。

檢索系統評價的作用

  • 明確系統當前性能特徵,從而科學實際、最大限度發揮系統的功能
  • 發現系統現存的缺陷及其原因,提出改進意見或其他對策
  • 爲設計和建立新的檢索系統提供參考

信息檢索效果評價的指標(06華南師範比較)

主要有六個:收錄範圍、查全率、查準率、響應時間、用戶負擔和輸出形式

查全率
反映出信息檢索系統檢出相關文獻信息的能力。
查全率 = [檢出相關文獻信息量/檢索系統中相關文獻信息總量]×100% = [ a /(a + c)]×100%

查準率
它反映出信息檢索系統的精確度,說明系統排除干擾,減少噪聲的能力。
查準率 = [檢出相關文獻信息量/檢出文獻信息總量]×100% = [ a /(a + b)]×100%

誤檢率 = [誤檢文獻信息量/檢出文獻信息總量]×100% = [ b /(a + b)]×100%

漏檢率 = [漏檢相關文獻信息量/檢索系統中相關文獻信息總量]×100% = [ c /(a + c)]×100%

響應時間指在一次檢索過程中,用戶從開始向信息檢索系統提問到系統輸出檢索結果的全部時間。響應時間越短,查全率和查準率越高,那麼信息檢索的效果就越好。

影響檢索效果的因素

(重點理解各個方面的因素是如何影響檢索效果的)

  • 標引的質量
  • 檢索語言的性能
  • 檢索途徑的數量
  • 檢索策略的優劣
  • 檢索人員的素質

解釋

  • 標引準確性關乎信息檢索查全率和查準率
  • 性能好的檢索系統語言可以提高檔案,檢索系統的性能和質量。詞表結構響應檢索,詞表影響標引
  • 適當增加檢索途徑有利於提高系統的查全率,但是檢索途徑過多,會加重各級系統的負擔,降低查準率
  • 檢索策略在查找中起決定性的作用
  • 對於檢索效率有直接影響。檢索人員的基本素質是有一定科學文化知識水平和檢索技能兩方面
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章