領域詞彙知識庫的類型、可用資源與構建技術漫談

詞是語言系統中重要的語言單元,詞語是開展文本處理的基礎,在語義表示上具有比字符更豐富的表達能力。詞語具有領域特性,不同的領域具有不同的詞彙體系,如軍事領域、醫療領域、公共治安領域、金融領域之間存在着很大的差異性。這種領域性的特性,一方面可用於領域分類、領域標籤化、領域區分、關鍵詞提取以及特徵詞提取,也可支持知識圖譜知識體系如本體與實例體系的搭建。另一方面,也提出了領域詞彙的抽取,領域詞彙之間語義關聯的抽取、領域詞彙的擴展、領域詞彙知識庫的構建等多項任務。與此相關的領域詞彙挖掘技術是自然語言處理中的一項關鍵技術,也是支持公司業務落地和應用的必備能力之一。本期文章將緊緊圍繞領域詞彙知識庫(以下簡稱領域詞庫)這一主題,對數地工場的領域詞彙功能、領域詞庫的常見類型、領域詞彙的構建技術和相關案例進行介紹。

一、數地工場的領域詞彙功能
數地工場 (https://nlp.zhiwenben.com) 已經上線2周時間,在語義計算模塊上,提供了針對詞彙的語義聯想和概念抽象兩項功能;在信息抽取模塊提供了關鍵詞抽取功能,此後將提供其他相關功能。

1、 語義聯想
數地工場中的語義聯想,提供了針對用戶輸入詞語路關聯的近義詞、反義詞和相關詞接口,例如輸入“尊敬”一詞,可以聯想出“尊崇”、“崇敬”、“敬服”等近義詞;“侮慢”、“蔑視”等反義詞;“叩首”、“祭拜”等相關詞,可用於詞語拓展和關聯推薦等應用。

在這裏插入圖片描述

2、 概念抽象
概念抽象,指針對用戶輸入的某個詞語,得到該詞語的迭代上位抽象路徑,該路徑在事件抽象、關聯詞拓展方面、加強對既定事物的認知等方面大有用處。例如,對於“航空母艦”並在這裏插入圖片描述不瞭解的人來說,可以通過概念抽象這一功能,得到了“航空母艦->船->交通工具->器具->無生物->物質->萬物->實體”這條抽象路徑,進一步形成“船”和“交通工具”的認知。

3、 關鍵詞抽取
關鍵詞抽取,可針對段落或文本進行處理,得到具有代表性的特徵詞集合,這一項常作爲文本特徵提取及表示使用。例如,針對當前“美國伊朗局勢升級”這一主題下的文章,可以通過關鍵詞提取技術,提取出相關的關鍵詞列表,如“伊朗”、“美國”、“美伊”及相應的權重等。
在這裏插入圖片描述

二、領域詞庫的常見類型
不同的領域詞庫能夠支持不同的應用,領域詞庫可以細分爲領域特徵詞庫、領域停用詞庫、領域情感詞庫、領域抽象詞庫、領域語義詞庫、領域事件詞庫等6種詞庫。

1、領域特徵詞庫
領域特徵詞庫,與領域強相關,具有領域區別能力形成的詞語集合,如體育領域中常見的“籃球”、“足球”等詞,文學領域常見的“令狐沖”、“魯迅”等詞、敏感詞庫,常用於不同領域文本的分類任務,如醫療領域特徵詞庫、軍事領域特徵詞庫、治安領域特徵詞庫中常作爲貝葉斯方法的特徵詞以及基於機器學習方法的分類特徵而存在。另外,不同領域的特徵詞典,常可用作業務指標詞、數據項指標詞。如金融領域中的財務詞表、上市公司詞表(曾用名、公司簡稱詞表)、數據指標詞表等在進行特定財務數據的提取中能夠帶來幫助。需要注意的是,領域特徵詞庫往往與某個領域的具體業務內容相關,具有專業性的特徵,往往只有相關領域的專家或業務人員才能夠對該領域的詞進行有效區分。因此,領域特徵詞庫在構建的過程中,往往不能完全寄託於機器自動發現,而是需要專業人員進行標註篩選完成。

2、領域停用詞庫
停用詞庫往往是作爲特徵詞提取中的一項重要外部資源而存在的,這個在文本分類、問句解析、句子主幹化方面應用較多,常可以幫助過濾無關信息。領域性是停用詞的一大特徵,同一個詞在某個領域是停用詞,在另一個領域又不是停用詞,如“開心”一詞在軍事領域可以常忽略不計,但在人類情感文本領域則是關鍵特徵。領域停用詞庫,在構建階段與領域特徵詞一樣,需要人工加以校驗過濾。但在算法邏輯上,可以通過低頻過濾、領域通用詞過濾、基於功能詞性過濾(如過濾介詞、副詞、連詞、助詞等虛詞)的方式進行。

3、領域情感詞庫
領域情感詞庫常作爲情感分析、輿情計算中的一項重要外部語義計算資源而存在,通過對不同的情感詞的極性以及對應的權重或者強度進行標記,採用基於依存語義、基於窗口的情感計算規則,能夠完成相關篇章、段落、句子級別的情感判定以及系列度情感對提取任務。目前開源的可用的情感詞庫有一些,如大連理工大學開源的情感本體庫,香港大學、臺灣中文大學開源的情感詞庫等,但這些都是通用域的,在計算領域文本的情感時會出現一定的阻礙,如“升高”這一詞,在形容“信心”、“經濟發展速度”上時,是一種正向的情感傾向,但在描述“血壓”、“血脂”、“自殺率”等疾病上,則表現出截然相反的一種情感。因此,在進行基於傳統詞典與規則的情感判定上,往往需要加建立起不同領域的情感詞庫加以區分和領域適應。

4、領域抽象詞庫
領域抽象詞庫,又叫做領域概念詞庫,往往作爲知識圖譜中的知識本體描述詞彙以及語義推理上重要資源而存在。“抽象性”以及“概念性”是這類詞庫的重要特性,抽象性決定了這類詞在對具體客觀實體的描述上不再具有實例描述屬性,而是更爲抽象和上層的,如“動物”、“生物”、“人物”等,往往可以表示成某種實例的類型名稱,即更偏向於類型層,這可以在百度百科、互動百科等百科分類體系、商品目錄分類體系以及各個垂直網站的導航目錄層級上,對知識實體的描述提供了較好的結構層次性特徵和可用性。這種可用性體現在這種結構路徑的可用性,可以通過迭代向上抽象的方式,得到某個領域詞的抽象路徑;可以通過這種抽象結構,完成不同層級的實體聚合以及實體擴展。抽象路徑與實體擴展在搜索拓展、語義推薦上能夠得到很好的運用。

5、領域語義詞庫
領域語義詞庫,特性主要體現在“語義”二字上,是從語言的語法特點和功能出發來說的。語法上,包括北大的語法信息詞典,北大的實體概念詞典、Hownet語義詞典、CWB詞典等,這幾個語法詞庫,在對詞的語法功能上都做了不同的工作,對詞的內部結構信息進行了詳細的標註,如北大的語法信息詞典,以詞類爲劃分標準講漢語的常用詞進行了劃分,並對詞性、搭配(前接成分和後接成分)進行了詳細的標註;Hownet語義詞典從義項的角度對詞的義元進行了分解和註釋。另外就是語義詞庫,這類語義詞,側重點不在詞語的內部語法結構,而在詞語的整體語義上。這類詞庫,常見的詞庫有哈工大發布的同義詞詞林擴展版,這個詞庫將同義詞按照語義的相近程度進行了不同層次的聚類,可以作爲同義詞擴展提供幫助,另一個是情感分析任務中常用的情感詞典(在上面有論述)。領域語義詞庫,可以在自然語言處理的任務中作爲語法層面的特徵提供幫助。

6、領域事件詞庫
領域事件詞庫,其特徵在於“事件”二字,“事件”與常見的名詞性實體不同,常常更偏向於動作性上,如“打架”、“鬥毆”、“火山爆發”等,是對特定領域業務中的動作進行收納和聚合。不同的領域有着自身不同的事件類型,事件類型可以通過具體的事件詞列表進行表示,如金融領域中的“併購重組”、“上市”、“退市”、“資金凍結”,政治領域中的“總統大選”、“總統下臺”、“支持率下降”;法律領域的“逮捕歸案”、“越獄出逃”等事件等,這類事件詞配合着事件之間的橫向關聯關係以及縱向上下位/組成關係,可以組成適用於某個特定領域的事件網絡,並應用到與事件相關的各項業務當中。此外,事件詞的挖掘和識別是一個難點,包括事件的邊界確定,事件的範圍確定等,在應對措施上,可以通過有監督的序列標註方法以及基於依存規則與模式的方式加以提取;也可以通過業務人員針對業務,將各個業務環節中的操作動作、用戶日誌行爲進行抽象化和序列化,如典型的客服領域,可以將客服的各項動作邏輯都形式化成一個事件,設定觸發條件以及事件之間的屬性,將整張領域事件網絡圖搭建起來。

三、可用的領域詞資源
冷啓動問題是開展領域文本業務首要面臨的問題,在這種沒有數據沉澱以及可用數據人員的情況下,開源的可供免費使用的領域詞庫成爲了首選。輸入法、垂直網站、開源文件庫這三類資源庫,常可作爲我們的領域詞資源使用。

1、輸入法詞庫
輸入法是目前與我們生成文本內容信息作爲主要的入口,而在這個生產過程當中,我們積累了大量的詞庫,主要體現在用戶個人詞庫以及輸入法開發商研製詞庫兩個方面。目前可供我們使用的輸入法有很多,包括搜狗輸入法,QQ拼音輸入法,百度輸入法等,這些輸入法在官網都有相應的公開詞庫供用戶下載。不過,由於輸入法詞典是經過加密處理形成的一種非文本文件,往往需要藉助腳本或者開源工具進行轉換。如對於搜狗輸入法而言,在主頁中提供了包括農業、法律、生活、城市等十幾個大類的詞庫,包括數千個.scel格式的詞典文件,而無法直接以文本格式提取,可以藉助奧創詞庫加以轉換。輸入法公開詞典提供了大量的領域詞庫,但由於該詞庫大多是用戶創建或上傳的,因此在轉換完成之後,還需要加以人工判定、篩選和過濾。

2、垂直網站
垂直網站爲某個特定領域業務詞彙的梳理提供了很好的數據來源的垂直定位,由於垂直網站的目標定位,網站內容較爲單一和乾淨,這對於某個特定領域的詞彙收集帶來很大的操作空間。例如ZOL中關村在線提供手機最新價格及經銷商報價,包括手機大全,手機參數,手機評測,手機圖片,手機論壇等詳細內容,購買手機提供全面參考,可以提供針對手機的詞彙收集;又如針對金融領域而言,可以從東方財富網、同花順網、和訊網等垂直網站的目錄標籤和導航頁中解析出與上市公司、期貨、宏觀指標等特定詞彙;又如,針對抽象類層級性詞語的收集時,可以在百科分類體系以及義項上獲取開放域的上下位抽象概念;在京東、淘寶的頁面上獲取商品類別的抽象層級性詞彙;在原材料供應網站的頁面上獲取原材料的上下位抽象層級詞彙。用好垂直網站頁面上的內容,能夠最大程度上的解決特定業務開展的冷啓動問題。

3、開源文庫
與輸入法開源詞庫以及垂直網站不同,開源文庫以直接可讀、全民共同編輯的形式爲業務開展的冷啓動問題和詞彙擴展問題提供了一個方案。典型的開源文庫,包括百度文庫、新浪愛問知識平臺提供了各種形式的領域詞庫信息,其特徵主要體現在收費和格式上,對於一些高質量的詞庫,往往需要付費才能夠使用,此外,TXT、XLS、DOC、DOCX、PDF等格式各異,也給後期的處理和整理帶來困難,這一點在實際的使用過程中需要加以注意。

四、常用的領域詞構建方法有哪些?
領域詞庫有着不同的收集來源和類型劃分,針對不同類型的領域詞庫,需要結合實際的業務情況,合理的選用不同的方式來完成冷啓動詞典構建或者啓動中的詞語擴充工作。以下介紹了基於公開詞庫資源的整理和轉換、基於種子詞語及頻繁模式的詞彙擴展、基於種子詞語及分佈式表示的詞彙擴展三種構建方法。

1、基於公開詞庫資源的整理與轉換
輸入法、垂直網站、開源文件庫這三類資源庫,常可作爲我們的領域詞資源構建中的語義資源,根據業務需求,可以從中擇一或者採用三者並行的方式來進行收集。針對輸入法詞庫中不可直接讀取的.scel格式的詞典文件,可以藉助奧創詞庫加以轉換,並根據實際的業務需求將純文本形式轉換成所需格式。針對垂直網站頁面中的領域詞彙信息,則可以藉助定點爬蟲以及xpath網頁文本解析的方式加以轉換和存儲;針對從百度文庫等公開文庫平臺上下載的詞庫資源,可以通過手工或者腳本轉換的方式進行整理。

2、基於種子詞語及頻繁模式的詞彙擴展
基於種子詞語及頻繁模式的詞彙擴展是常用的一種基於規則的詞彙擴展方法,通過輸入的種子特徵詞庫,通過計算種子特徵詞庫所在上下文的特徵,並進行頻繁模式挖掘,如BootsTrapping自舉的方法,完成種子詞與相關詞的擴展。例如,針對領域情感詞的擴充任務來說,可以通過SO-PMI算法來計算種子情感詞與情感候選詞之間的點間互信息,其思想爲:選用一組褒義詞(Pwords)跟一組貶義詞(Nwords)作爲基準詞。若把一個詞語word1跟Pwords的點間互信息減去word1跟Nwords的點間互信息會得到一個差值,就可以根據該差值判斷詞語word1的情感傾向。當SO-PMI(word1)> 0時,爲正面傾向,即褒義詞;當SO-PMI(word1) = 0時,爲中性傾向,即中性詞;當SO-PMI(word1) < 0時,爲負面傾向,即貶義詞。通過這種擴展方法,可以挖掘出不同領域的情感詞。

又如,在擴展規則上,可以使用當前可用的語義詞庫如近義詞詞庫、反義詞詞庫、抽象類詞庫中詞語詞之間的關聯關係完成相應擴充。

3、基於種子詞語及分佈式表示的詞彙擴展
與基於頻繁集的詞彙擴展方式不同,分佈式表示的詞彙擴展從詞語之間的空間距離關係角度出發提供了入口。2013年,Google開源了一款用於詞向量計算的工具—word2vec,引起了工業界和學術界的關注。首先,word2vec可以在百萬數量級的詞典和上億的數據集上進行高效地訓練;其次,該工具得到的訓練結果—詞向量(word embedding),可以很好地度量詞與詞之間的相似性。詞語類比是詞語擴展中的一個例子,給定 king - man + woman = queen, 當將該例子換成中文映射到訓練好的wordvec中文詞向量中可以實現“國王 - 男人 + 女人 = 王后”該結果的輸出。基於wordvec找詞語相似也是一個應用,給定種子詞“自然語言處理”,通過詞語之間相似度的計算,可以得出“自然語言處理、自然語言理解、計算機視覺、深度學習、機器學習、圖像識別、語義理解、自然語言識別、知識圖譜自然語言、自然語音處理”等一系列的詞。當然,wordvec只是進行詞語分佈式表示方法的一種,可以通過其他方式完成詞向量的表示。

五、結語
不同的領域詞庫能夠支持不同的應用,領域詞庫可以細分爲領域特徵詞庫、領域停用詞庫、領域情感詞庫、領域抽象詞庫、領域語義詞庫、領域事件詞庫等,冷啓動問題是開展領域文本業務首要面臨的問題,在在這種沒有數據沉澱以及可用數據人員的情況下,開源的可供免費使用的領域詞庫成爲了首選。輸入法、垂直網站、開源文件庫這三類資源庫,常可作爲我們的領域詞資源使用。領域詞庫有着不同的收集來源和類型劃分,針對不同類型的領域詞庫,需要結合實際的業務情況,合理的選用不同的方式來完成冷啓動詞典構建或者啓動中的詞語擴充工作。領域詞彙挖掘在自然語言處理中扮演着舉足輕重的作用,領域詞彙構建與應用技術是數地工場平臺建設的一個方向,我們後期將上線相關的領域詞彙構建模塊。

數地工場是由中科院軟件所智慧金融團隊(數據地平線)以近年來在金融領域的技術積累爲基礎,基於並行計算系統、分佈式爬蟲技術、語義知識庫構建技術、語義分析技術,一站式滿足用戶網頁信息採集、多源異構信息抽取、語義計算、輿情分析、語言資源構建等中文自然語言處理需求的語義開放平臺。

數地工場圍繞數據、事件、邏輯三個方向,提供數據提取(面向多源異構數據的結構化提取與標準化),事件提取(領域事件識別、元素識別與建模管理),邏輯推理(事件關係識別、事件體系構建、事件邏輯推理)等自然語言處理接口工具資源。

更多商業合作,請諮詢[email protected]。歡迎掃描下圖二維碼加入我們的種子用戶QQ羣成爲我們的VIP客戶,VIP客戶可優先免費體驗新功能,客服1v1人工服務,意見反饋優先處理等衆多福利~我們也會在羣裏不定期的發放優惠和福利,歡迎大家在QQ中搜索QQ號:742846873或微信掃描下方二維碼加入~

在這裏插入圖片描述

發佈了53 篇原創文章 · 獲贊 131 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章