研讀論文報告—《大規模英語動詞多詞表達式註釋語料庫的構建》

 

 

論文出處:2018paper of LREC

http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf

 

 

背景:多次表達式的複雜以及出現率非常大。動詞表達式的歧義問題以及前人工作較爲少。一般都做名詞多詞表達式。

基於上述背景:此實驗主要是構建一個全新的動詞多詞表達式語料庫,非充滿技術含量的實驗,主要方法是衆包技術,人工註釋,以及各種語法知識。

數據來源:華爾街日報大量英語文章的主體。開源:https://github.com/naist-cl-parsing/Verbal-MWE-annotations

格式如上圖。

1.介紹:從華爾街日報中抽取了大量的VMWES並做好排序和初步篩選工作。

              篩選規則有去掉be動詞的以及帶有名詞的VMWES。

              做好目錄分類:介詞動詞,動詞小品詞,輕動詞短語,動詞加名詞加介詞,半固定結構。

2. 構建註釋語料庫:衆包技術(用來消歧義)(衆包技術:簡單來說就是技術問題靠大家解決,分配給互聯網上自願完成任務的                                  個人)  詳細可以看這裏~

                                web註釋平臺,給專業人士一個平臺對VMWES進行註釋。對註釋員進行非常嚴格的篩選。     

3.檢查:對於出現了重複及包含的問題:  進行合併或者取包含詞(不是被包含那個)

4.展望:繼續擴大語料庫以及挖掘VMWES更多的信息。

我把我的註釋PDF放在這裏(我的資源)。(不知道爲什麼現在不能規定積分,默認了下載要五個積分。。)

第一次研讀論文,經驗不足,以此記錄。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章