standford vs opennlp

重新訓練的模型主要針對短角色,即詞串數不大於3的角色,這是因爲考慮到在實際環境下一般人難以輸入長句,一般口語化的句子其實都比較短。手工測試訓練後的效果至少不比之前的模型差。然而,使用stanford parser爲基礎的語義分析有一個致命的缺點:分析嚴重受制於stanford parser的結果,而stanford parser是將分詞、詞性標註都集成在一起,難以使用第三方的分詞器和詞性標註器,從而導致parser結果不可控。因而我的想法是放棄使用stanford parser,而採用shallow parser。shallow parser如果是在gold pos前提下的準確率要高於stanford parser。shallow parser的主要問題是必須在之前先進行分詞與詞性標註(POS)。
目前我主要關注兩個POS tagger,一是stanford tagger(使用ME模型);二是opennlp(使用ME模型)。stanford tagger是一個比較大而全的tagger,支持標註、訓練等任務,而且不經任何加工即可直接使用(模型已經被訓練獲得),因而是一個富項目。opennlp的tagger代碼則比較簡單,使用前必須先經過加工訓練。這兩個項目的缺點在於缺乏必要的文檔,stanford tagger難以明白用到哪些特徵,而opennlp難以一下子入手。
另外,這個工作在當前的項目中到底有多大的價值本身也難以評估,就怕花了時間,效果卻不甚明顯。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章