信息組織的基本原理
1. 語言學原理
1.1 信息組織的語言工具
情報檢索語言
- 檢索語言的目的是用於標引和檢索,而根本的目的是滿足檢索的需要。
- 它是一個規範化的概念體系,能準確表達信息主題並顯示其相互關係。
- 它是有序的,可用於系統排序。
- 是一種人工語言。
1.2 檢索語言的類型
1.2.1 基本劃分
張琪玉教授關於檢索語言類型的劃分。
- 按構成原理分的類型。
- 按所包含的學科或專業範圍分的類型。
- 按適用範圍分的類型。
- 按標識所用語言文字分的類型。
- 按標示的組合使用方法分的類型。
切爾內關於檢索語言類型的劃分。
- 先組情報檢索語言
- 後組情報檢索語言
- 題錄引文語言
1.2.2 檢索語言的譜系分類方法
所謂檢索語言譜系分類是指按各種語言的親屬關係劃分的分類方法。
譜系分類是將檢索語言按語系語族語支和語種體系劃分的一種方法。
- 語系是譜系分類最上位概念。
- 語族是語系的進一步劃分。
- 語支是語族的進一步劃分。
- 語種指具體的以某一種語言詞典爲基礎的語言。
分類檢索語言有三個語支
- 等級體系分類語言:直接體現知識分類的等級制概念標識系統。某些外表特徵。
- 分析綜合分類語言:印度阮岡納讚的《冒號分類法》
- 半分析綜合分類語言:國際十進分類法
主題檢索語言
- 標題詞語言:按標題字順排列的一種組織檢索工具的檢索語言
- 單元詞語言:後組式的語言形式,代表人物:陶伯
- 敘詞語言:以概念組配爲基礎。
1.3 語言學在信息組織中的應用
張琪玉的《情報檢索語言語法體系初探》就是我國第一篇用語言學研究體系來探討檢索語言體系結構的論文。
計算語言學可以歸結爲以下三個方面
- 自動編排
- 自動分析
- 自動研究
在語言學中運用詞頻統計分析是定量研究的傳統內容。
1.4 檢索語言的語法
1.4.1 語法體系構成
詞彙和語法。
傳統語言學又把語法劃分爲詞法和句法兩大部分。
語法研究是檢索語言的核心所在。
1.4.2 詞彙控制
詞彙是標引和檢索的工具。
自然語言的缺點有:
- 同義
- 多義
- 語意不清或語義不確定
詞彙控制:
- 詞彙控制的目的是爲了使檢索詞符合唯一性,規律性,定型性,通用性和準確性。
- 詞彙控制是精選核心詞彙,要儘可能控制詞彙規模。
- 詞類控制是選取名詞和名詞性詞組,少量的選用一些形容詞。
- 詞義控制是在主題詞或內部時候加限定詞,加含義及範圍註釋或附加簡明定義等。
專指度控制是指語義的內涵和外延與信息主題內容的切合程度。
1.4.3 句法控制
顯性意義通常包括四種,
- 陳述關係
- 支配關係
- 修飾關係
- 平行關係
明確句法結構的顯性意義可以與句式變換和建立檢索提問邏輯式直接相關。
隱性意義通過顯性意義間接表現。
句法控制手段由引用次序,控制符號,句式變換。
引用次序:
- 顯著性引用次序:按各成分的重要性排列的次序——>區分和限定,並強調限定詞應跟在所限定的標題後面(實用意義大)
- 範疇職能引用次序:具體性遞減原則。標準次序(維克利思想)。
- 概念關係引用次序:對一個複合主題進行概念分析,然後根據概念間的各種關係確定其引用次序(使用符號表示)
上下文從屬引用次序
控制符號:大多不在句子序列中,而是和句子平行出現。
聯號又稱聯符,聯號方法主要有兩種,第一種是詞間連鎖法。這種方法適用括弧把一組標引詞連接起來,第二種是詞間定位法,它是在每個標引詞後標單號碼。
職號又稱職符
- 其具有某一共同的句法功能的詞彙用同一種符號進行控制。
- 用符號表示組元在句子中的職能,或者表示其關係意義。
- 關係符號——>《冒號分類法》
加權既可用於標引又可用於檢索,用於標引稱爲加權標引,用於檢索稱爲加權檢索,在檢索中必須達到規定的最低閾值纔算命中。
句式變換形式主要有輪排和倒置兩種
- 簡單輪排:將每個詞抽出作爲入口詞。一般都用於建立倒排檔檢索系統。
- 詞對式輪排:將標引語句中的入口詞進行兩兩組合構成一個詞對,然後將每個詞對進行有序排列。
- 循環輪排:也稱轉動輪盤,能夠保持標引語句的句法關係,給檢索者以完整的信息,以便較準確地理解信息主題。
- 換軌輪排通常稱結構輪排,這種輪排在其過程中着重考慮標引語句的句法結構。
句式變換的最基本的準則是可以改變句法的顯性關係,但卻不能改變其隱性關係,必須保持句子的深層結構,否則就會使原句出現歧義。
2 系統論原理
創立者:貝塔朗菲
核心思想:整體觀念
基本思想方法:
信息檢索系統的發展:
手工——>聯機——> 光盤 ——>互聯網
信息檢索系統的結構:
- 六個子系統
- 檢索語言和標引是系統的中心環節
信息檢索系統評價:
- 查全率和查準率
3 知識分類原理
科學分類與圖書分類一致性理論
檢索語言是信息組織和知識組織的工具
哲學家知識分類體系
->代表人物:培根、哈利斯
->培根分類法
->->歷史——詩歌——哲學
->倒轉培根分類法
->->哲學——詩歌——歷史
大百科全書知識分類體系
->亞里士多德
->不列顛百科全書
大學教學知識分類體系
->學科專業目錄
->大學教材的學科體系
科學的知識分類體系
->錢學森
4 概念邏輯原理
4.1 概念的種類
**集合概念:**如,叢書
**非集合概念:**如,桌子,樹
**普遍概念:**外延有兩個以上的概念,如,書,人,學生
**單獨概念:**外延只有一個概念,如,“長江”
4.2 概念的內涵和外延
內涵擴大,外延縮小;內涵縮小,外延擴大
下位類承接上位類的內涵
4.3 概念之間的關係
相容關係:
- 屬種關係:一個概念的外延包含另一個概念的全部外延。如,松樹與落葉松
- 同一關係:兩概念在外研上完全重合。如,中國的首都與北京
- 交叉關係:兩概念之間有且只有一部分外延是重合的。如,青年與工人
相容的並列關係:如橋樑下的鐵路橋
不相容的並列關係:如禾穀作物下的玉米
4.4 概念的邏輯方法
4.4.1 概念的限定與概括
限定:增加內涵,縮小外延
概括:增加外延,縮小內涵
4.4.2 概念的劃分
基本原則:劃分得到的子項的外延之和應當等於母項的外延之和,劃分得到的各子項的外延必須相互排斥,使用同一標準,按層次逐級劃分
4.4.3 概念的分析與綜合
分析:分解的研究方法——>簡單的要素
綜合:聯繫起來考察——>找出共性認識
4.4.4 概念的表達
體系表達法——>中圖法
符號表達法——>敘詞表
圖形顯示法——>歐洲傳統
語義關係表達法——>本體語言
5 參考資料
《信息組織(第三版)》,戴維民主編,高等教育出版社,2014年.