論文出處:2018paper of LREC
http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf
背景:多次表達式的複雜以及出現率非常大。動詞表達式的歧義問題以及前人工作較爲少。一般都做名詞多詞表達式。
基於上述背景:此實驗主要是構建一個全新的動詞多詞表達式語料庫,非充滿技術含量的實驗,主要方法是衆包技術,人工註釋,以及各種語法知識。
數據來源:華爾街日報大量英語文章的主體。開源:https://github.com/naist-cl-parsing/Verbal-MWE-annotations
格式如上圖。
1.介紹:從華爾街日報中抽取了大量的VMWES並做好排序和初步篩選工作。
篩選規則有去掉be動詞的以及帶有名詞的VMWES。
做好目錄分類:介詞動詞,動詞小品詞,輕動詞短語,動詞加名詞加介詞,半固定結構。
2. 構建註釋語料庫:衆包技術(用來消歧義)(衆包技術:簡單來說就是技術問題靠大家解決,分配給互聯網上自願完成任務的 個人) 詳細可以看這裏~
web註釋平臺,給專業人士一個平臺對VMWES進行註釋。對註釋員進行非常嚴格的篩選。
3.檢查:對於出現了重複及包含的問題: 進行合併或者取包含詞(不是被包含那個)
4.展望:繼續擴大語料庫以及挖掘VMWES更多的信息。
我把我的註釋PDF放在這裏(我的資源)。(不知道爲什麼現在不能規定積分,默認了下載要五個積分。。)
第一次研讀論文,經驗不足,以此記錄。