原创 根據給出的語料庫,訓練n-gram模型。根據訓練出的模型,判斷測試集中每個句子是不是語法合法的句子

2-Gram的訓練:先是將下載好的漢語分詞工具NLPIR導入eclipse中,注意在使用這個分詞工具的時候必須將Data包更新爲最新,不然會初始化失敗。編寫代碼實現對文件的分詞,由於這個分詞工具只可以實現3M左右的文件分詞,過大的文件會出