關鍵知識參考:
評價指標
包括:重疊詞評價指標、詞向量評價指標、困惑度。
重疊詞
認爲,對話提問的回答,應該是發散的,詞彙不應該重疊過多。評價方法有:
重疊詞評價方法 BLEU 常作爲機器翻譯評價指標,在重疊詞中的應用,是最多的。
https://blog.csdn.net/guolindonggld/article/details/56966200
ROUGE 常作爲文本摘要評價指標 METEOR 基於BLEU做一些改進
詞向量
評價word2vec sent2vec doc2vec等
詞向量評價方法 greedy matching 基於貪心算法的思想,貪婪地不放回地生成一個虛擬對照組的方法。
Embedding Average 使用餘弦相似度來計算兩個句向量的相似度。 Vector Extrema
perplexity困惑度
評價語言模型的好壞,輸出的句子是否是人話。
人工指標
閒聊數據,反應如何
技術類數據,反應如何等