信息組織 | 信息組織中的自然語言應用

1 自然語言在信息組織中的應用概述

1.1 自然語言的優缺點

優點

  1. 可以降低標引難度及成本,從而提高標引速度; 採用用戶熟悉的自然語言,符合用戶檢索習慣, 減少了概念轉換中產生的失真現象,專指度強;
  2. 由於自然語言標引檢索多采用自動處理方式,省略了編制詞表和詞彙的智力負擔;
  3. 操作簡單方便,靈活,比較適合沒有專業知識的 廣大網絡用戶使用等。

缺點

  1. 由於自然語言對標引用詞不加嚴格控制,必 然會形成非關鍵性詞語的大量出現,影響檢 準率的提高;
  2. 由於不能反映概念詞間的一一對應關係,也 不能反映概念關係的隱含性,無法排除同義詞(漏檢)、近義詞、多義詞(誤檢)等詞間的模糊現象,勢必也會直接影響到檢全率的提高。
  3. 自然語言和受控語言都有各自獨特的優點和缺點, 不能簡單彼此替代,而應當相互補充、交融。

解決方式:
針對上述自然語言及其檢索中存在的這些問題

  • —方面要依靠計算機技術和自然語言處理技術的突破發展;
  • 另一方面受控語言的基本原理一對詞彙的控制, 是永遠不會被省略的,變化的只是詞彙控制的方式、方法和手段。

1.2 自然語言與自然語言處理

  

自然語言處理 natural language processing ( NLP ),是實現自然語言理解的核心基礎,是語言信息處理的一個重要分支,是自然語言得以應用所要解決的首要的核心問題。

自然語言處理研究內容的基礎部分
■語法分析(Syntactic Understanding)
■語義分析(Semantic Understanding)
■語用分析(Pragmatic Understanding)

2 自動分詞與自然語言標引

2.1 漢語分詞

2.1.1 漢語分詞及其障礙概述

  

漢語屬於黏着性語言,較之於屬於曲折型語言的西語系
(如英語、法語、德語等)語言,詞與詞之間缺乏任何
形式上的標誌

漢語切分中的難點

  1. 漢字之間存在着不同的組詞方式;
  2. 從標引的角度分析,交集型的標引詞彙難以處理。
  3. 漢語虛詞衆多,而且絕大多數漢字當與不同的漢字組詞 時,其詞可能爲關鍵詞,也可能爲非用詞。
  4. 新詞的頻繁出現也給漢語分詞增添了難度。

分詞歧義的類型

  1. 交集型歧義
  2. 組合型歧義

切分歧義的解決策略

  1. 漢語文本中含有許多歧義切分字段,典型的歧義有交集型歧 義(約佔全部歧義的85%以上)和組合型歧義。只有向分詞系統提供進一歩的語法,語義知識才有可能作出正確的決策
  2. 切除歧義常常用詞頻、詞長、詞間關係等信息
  3. 有時切分歧義發生在一小段文字中,但爲了排除歧義,需要 看較長的一段文字。

2.1.2 漢語分詞方法

基於詞典匹配的分詞方法
  

又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個 "充分大的"機器詞典中的詞條進行配,若在詞典中找到某個字符 串,則匹配成功(識別出一個詞)。
基於理解的分詞方法
  

就是在分詞的同時進行句法、語義分析,利用句法信息和語義 信息來處理歧義現象。
基於統計的分詞方法
  

可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的同現信息 ,同現信息體現了漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時,便可認爲此字組可能構成了一個詞。

2.2 自然語言標引

  

自然語言標引是指採用原文中的信息作爲標引源, 從中選取能夠有效表徵信息內容的特徵詞的過程。

2.2.1 自由標引

  

即人工關鍵詞標引。是指將那些出現在文獻的標題(篇名、 章節名)以及摘要、正文中,對錶徵文獻主題內容具有實質 意義的語詞,亦即對揭示和描述文獻主題內容來說是重要的 、帶關鍵性的(可以作爲檢索入口的)那些語詞抽取,抽取 時不加規範或只做少量規範化處理。
  

自由標引主要適用於報紙文獻、期刊文獻的大型篇 名數據庫等的標引。

自由標引的優點

  1. 由於不使用詞表控制,標引速度要比使用詞表的主題標引快許多倍,這還意味着標引成本的降低;
  2. 可用與文獻主題專指度一致的詞進行標引,保證較高的檢準率;
  3. 標引過程是標引人員進行主題分析的過程,如果標引人員具有一定的業務水平,則其標引質量可大大高於自動抽詞標引。

2.2.2 自動標引

  

又稱計算機輔助標引(Computer Aided Indexing ),是根 據文獻內容,依靠計算機系統全部或部分地自動給出標引符 號的過程。

自動標引的意義

  1. 適應信息資源快速增長的需要
  2. 相對手工標引存在很大優勢,克服了手工標引難以克服的缺點。
  3. 自動標引一致性好
  4. 自動標引不受標引人員狀態和情緒的影響,穩定性好。

自動標引的分類

  • “狹義”的自動標引包括主題標引的自動抽詞標引和自動賦 詞標引兩種方式。
  • ”廣義“的自動標引還指在主題自動標引基礎上的自動賦分 類號標引。
    自動標引
  1. 自動主題標引
  2. 自動分類標引

自動主題標引關鍵在於:
  

詞語抽取;對所識別出的主題詞進行優選,以最終產生能表達文獻主題內容的標引詞。

西文自動標引
(1)文本的詞彙分析
(2)非用詞的去除
(3)詞幹提取
(4)索引項的選擇

中文自動標引的基本流程
(1)確定標引源
(2)預處理
(3)分詞處理
(4)確定關鍵詞
(5)轉換爲受控詞
(6)給出主題標識符

2.2.3 單漢字索引與全文索引

單漢字索引的優點

  1. 成功地繞過了漢語自動切分這一難題,實現比較容易;
  2. 自動化的適用程度高
  3. 單字索引的建立效率很高,
  4. 對於新興的概念詞也能即時處理,也解決了漢語交集型字符串標引的問題。
  5. 可以實現全方位、徹底的檢索;
  6. 單漢字檢索模式是最徹底的後組配模式,可通過調整檢索字的數量來任意調整檢索專指度。
  7. 可用於文獻內容的統計、分析和研究。

單漢字索引的缺點

  1. 將詞彙控制負擔轉嫁給了用戶,加重了檢索者構造檢索策略時的智力負擔;
  2. 基於單漢字的檢索只能實現物理字面上的匹配運算,難 於處理文本中的隱含概念主題;
  3. 單漢字自動標引會使無檢索價值的虛詞或分辨力很差的常用字在索引中佔很大比例;
  4. 同時在具體實現上還存在不足之處
    • 響應時間慢於其他方法;
    • 以單漢字爲索引單元,導致字頻率的跨度很大,索引(倒排)文 檔的構造必須要解決好存儲空間與檢索時間這兩個矛盾關係;
    • 單字組配檢索將會產生許多假組配現象,影響查準率。

3 自然語言檢索

3.1 自然語言檢索系統概述

自然語言檢索系統
  

就是指對文獻作者或文摘提要的編寫者原 來使用的語言進行一定的序化組織、處理 並提供自然語言檢索接口供用戶查詢使用的檢索系統。

自然語言檢索系統的關鍵性技術:

  1. 文本信息的自動標引
  2. 索引技術
  3. 自然語言檢索技術O系統採用的信息標引方式
  4. 所選取的索引的顆粒度

3.2 自然語言檢索

  1. 從檢索語言來講,自然語言檢索就是在爲文獻檢索 標識時,使用文獻作者、文摘編寫者原來所用的語 詞或標引人員自擬的語詞,而不是取自受控詞表中 的語詞;
  2. 從技術上講,就是將自然語言處理技術應用於信息 檢索系統的信息組織、標引與輸岀;
  3. 從用戶方面講,就是用自然語言作爲提問輸入的檢 索方式。

自然語言檢索的類型
■從用戶輸入檢索詞形式的角度區分:

  1. 關鍵詞檢索;
  2. 自然語言語句的提問式輸入檢索

■從檢索內容或檢索對象角度區分

  1. 基於標引字段的檢索方式;
  2. 全文檢索方式

3.3 全文檢索

  

所謂全文檢索(Full-Text Retrieval ),是指以全部文本信息作爲檢索對象的一種信息檢索技術。 全文檢索的核心技術就是維護一個高效的索引(主要是倒排文檔)。

全文檢索的索引問題
  

全文檢索的關鍵是文檔的索引,即如何將源文檔中所有基本元素的信息以適當的形式記錄到索引庫中。

全文檢索系統優缺點
■優點:

  1. 系統製作效率高
。
  2. 詞彙自然更新
。
  3. 專指性強
  4. 查全率高

■缺點:


1. 存貯空間開銷大



2. 檢索者智力負擔重



3. 誤檢率較高



4. 文本匹配的算法需優化



5. 中文全文檢索受漢語切分的
影響

中文索引的三種索引策略:

  1. 單漢字索引方式
  2. 詞索引方式
  3. N元語法(N-Gram法)

各種索引方式的優缺點

方法 查全率 查準率 檢索速度 索引空間
按字 海量數據慢 浪費
按詞 較差 較小
N- Gram 較好 較差 嚴重浪費

3.4 搜索引擎的自然語言檢索問題

(一)搜索引擎的檢索理論
  

一般以詞爲索引單位,即計算機程序通過掃描每一篇文章中的 每一個詞,建立以詞爲單位的倒排文檔,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的概率,對包含這些 檢索詞的文檔進行排序,最後輸出排序的結果。

  

全文檢索技術是搜索引擎的核心支撐技術
(二)搜索引擎的檢索技術
■關鍵詞匹配檢索

  1. 布爾邏輯檢索
  2. 詞組檢索
  3. 字段限制檢索
  4. 位置檢索
  5. 遞進檢索

■簡單提問式輸入檢索
  

問答系統(QA System ) ASK.com模式、 AnswerBus模式
■基於理解的自然語言檢索
  

在儘量避免引入複雜語義過程的前提下,依靠比 較成熟的實驗技術與成果(如,中文信息自動分詞技術、詞表編制技術),基於自然語言基本語義內容實現主題概念檢索技術。
自然語言檢索系統存在的問題
■易造成主題相關的信息分散;
■詞間關係含糊不清或不正確,無法清楚地顯示概 念間的關係,易造成檢索系統的失誤;
■用戶難以確定全部的檢索用詞,加重了用戶的負擔。

4 後控制檢索

4.1 後控制和後控詞表

後控:信息檢索階段的控制稱爲後控制
  

後控制方法主要有:截詞檢索、位置邏輯檢索、標弓I 詞加權和後控制詞表。

後控制詞表
  

是利用受控語言的基本原理和方法編制的自然語言檢索用詞表,它主要是對自然語言中大量存在的等同關係、等級關係和大部分相關關係進行控制和揭示,具有自學習功能,可根據檢索的需要 將新概念和新術語及時地加入詞表中,因此,後控詞表是一個動態詞表。

4.2 後控詞表應用現狀

■自動化詞表編制管理系統
■機讀或網絡化詞表的應用

後控檢索應用中的注意點

  • 後控詞間關係詞表在檢索系統中應該以“詞族片斷“
的結構形式存放。

  • 詞間關係詞表控制下的查詢擴展,一定要注意讓用戶
根據檢索意圖(或者說是檢索的語義概念)來選擇,
通過交互式的術語提示方式來實現控制。

4.3網絡檢索系統中的後控制技術

1 .檢索式的修整、優化

  • 停用詞典一一檢索詞有效性控制
  • 截詞詞典一一檢索詞詞形控制
  • 詞間關係詞表——檢索式概念控制

2 .檢索結果控制

  • 按相關度計算來排序檢索結果(百分比、星級顯示)
  • 按檢索結果主題內容聚類(聚類技術能經常地幫助用戶調整對感興趣的檢索結果的快速定位)

檢索結果的聯機聚類技術

■ Results-clustering

  

通過聚類,將檢索結果組織成一棵主題導航樹,其好
處是你處理的將是一個相對小數量的結果集,而不是
從整個網絡上檢索到的所有信息,科學地從檢索結果
角度優化了檢索,減輕了用戶負擔,使用戶以最快的
速度準確定位到滿足其檢索需求的記錄信息。

5 參考資料

《信息組織》第三版 ,戴維民主編, 高等教育出版社,2014年
《信息組織》第七章 PPT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章