2012年03月26日

利用對數線性模型進行詞對齊訓練的整個過程:

1、語料預處理

用python解析xml,生成src, trg, ref, srcTest, trgTest 和 refTest。

注意:由於本人是在linux下進行的預處理,所以要先將所有語料用notepad轉換爲與我的linux系統的編碼相同(如uft-8),再將xml用dos2unix命令進行轉換,,最後再用python解析,解析出來之後再把英文語料小寫化。(這一步我是在自己的虛擬機上跑的)

 

2、訓練

首先,用預處理後的語料跑GIZA++,得到data目錄下面的文件(注意,如果要使用詞根化的文本進行訓練,則需要先將詞根化後的文本經過GIZA++進行訓練)(我是在160服務器上跑的)

然後,換掉舊的data目錄,修改Vigne.ini

最後,利用src, trg, ref三個文件,放在run所在目錄下,運行run,得到結果。(這一步我是在曙光機上跑的)

注意:如果是在Linux上運行,則要把Vigne.ini,run,minimum..等文件用dos2unix 轉換一下

 

結果:

採用新方法:stem,提升7%

採用新特徵:pos,提升8%

發佈了21 篇原創文章 · 獲贊 0 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章