原创 通過reranking(重排序)測試lm(語言模型)性能

代碼在文尾共享 一. 系統說明     在常見語言模型測評指標是困惑度,它爲語言模型性能優劣提供一個參考指標。但機器翻譯的實際使用中,困惑度上的差異並不一定能很好地改善翻譯性能。因此本文提出將待測試的語言模型通過使用reran