互信息(Mutual Information)在统计语言模型中被广泛采用。如果用A表示包含词条t且属于类别c的文档频数,B为包含t但是不属于c的文档频数,C表示属于c但是不包含t的文档频数,N表示语料中文档总数,t和c的互信息可由下式计算:
MI(t,c) = log2{(A*N)/(A+B)*(A+C)}
互信息 Mutual Information
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
java的文本规则实现
http://blog.csdn.net/wang1127248268/article/details/76944552 java的實現文本規則過
搬砖老头
2020-06-20 04:52:30
fudandemo
https://github.com/FudanNLP/fnlp/tree/master/fnlp-demo/src/main/java/org/f
搬砖老头
2020-06-20 04:52:30
文本挖掘 - 文档模型
KeeJee
2020-06-21 17:14:34
seq2seq和自动摘要textrank的学习
搬砖老头
2020-06-20 04:52:30
基于TF-IDF对文本向量化
ogghanxi
2020-06-15 01:15:46
文本挖掘—搜狗语料库数据预处理
盐神
2020-06-15 00:07:35
机器学习之文本挖掘(初学1)
NicSmallFish
2020-06-14 14:36:29
网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现
悟乙己
2020-06-06 23:06:36
github项目推荐:HarvestText 文本挖掘和预处理工具
长行
2020-05-25 11:59:55
全文检索原理
qll125596718
2020-02-26 06:38:11
Python文本相似度实战——基于gensim和nltk库
kelvinLLL
2020-02-25 03:46:42
R语言tm工具包进行文本挖掘实验
Bentley-2012
2020-02-24 03:07:44
安装R-XML包时出现Cannot find xml2-config的问题解决
Bentley-2012
2020-02-24 03:07:44
24小時熱門文章