話到嘴邊不會說,反向詞典幫你找到那個最準確的表達!

問題引入

說到字典,我們都知道它的含義,那就是當我們遇到一個詞不知道什麼含義的時候,我們會查詢字典,來獲得它的定義,從而對於其含義進行理解。那麼其實他就是一個鍵值對,鍵就是這個詞,而值則是對這個詞的解釋。

然而,當我們在進行中文寫作或者是英文寫作的時候,我們都會遇到這樣的一個問題,那就是我們想要描述一件事情時,由於詞彙的缺乏我們很難描述的特別準確。這就相當於,我們擁有值,但是找不到鍵。這點在英文中尤爲突出,可以用一個詞解決的,非要使用一個從句進行描述,從而造成我們的論文的信息量由於篇幅的限制而大大減少。
在這裏插入圖片描述

嘗試解決

那麼有沒有這樣一個東西呢?在我去年就考慮這個事情的時候,當時還是僅有一些商業的字典公司提供相應的查詢,不過那是查詢相關詞的。例如:https://www.onelook.com/thesaurus/ ,單純使用的感受來講,並不是非常的準確。

終於在2020年初,就有人幫我完成了這件事,那就是AAAI2020的一篇論文,Multi-channelReverse Dictionary Model ,他本來是說提出多通道的反向字典查詢模型,並且在中英文語料庫上都取得了非常不錯的結果。而且,最關鍵的是它提供了一個開放的網站可以供我們使用:萬詞王

從這個使用效果上看,還是相當不錯的,雖然它的網站整體和onelook的風格非常像。
在這裏插入圖片描述

論文解讀

下面我們來看看它是怎麼做的,首先先給出整體的模型圖。
在這裏插入圖片描述

可以看到,對於查詢的句子,他的編碼方式是LSTM+Attention的形式,但是,重點在於它後面的5個任務,一個是基本的詞打分,也是基礎分,另外4個分別是上面的詞素和義原的打分,下面的詞性和詞類打分。這些都需要額外的信息,來自於知識庫。(wordnet, hownet以及同義詞詞林)

再來看看它的評估,它主要是用3種評價方法,一種是使用已知的定義,也就是標準的定義,而且還是知道的。另一種是未知的定義,也就是定義雖然是標準定義,但是沒有見過。第三種就是描述,也就是說它並不是一個定義,而是一個相關描述。第三種纔是我們平時常見的使用的方式。

在這裏插入圖片描述
可以看到這裏使用作者提出的模型在第二種和第三種上都有非常好的效果。在第一種裏已經見過的定義則使用onelook和MS-LSTM這種將原有定義融入模型之中的會更好。

而且,作者還在這個基礎之上,增加了先驗知識,如詞頻、詞的長度、單詞的第一個字母,以及單詞的大概樣子等,這個知識是在檢索以後再使用這些篩選,從而獲得更優的性能(這個也在真正的使用中提供了篩選),下表就是增加這些篩選後的性能。在這裏插入圖片描述

小結

從這篇文章中,我們不僅獲得了一個可以進行反向查詢的字典,而且還可以看到這種將工程和模型相融合的思維方式。首先我們要解決一個問題,將其抽象,關注於那些真正有用的部分,並想方法將其解決。並且還是用了工程的方法進一步提升性能。也對於一些公認的一些方法進行了比較,從而獲得比較可信的實驗結果。這是在我們以後的實驗中需要學習的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章