随便总结的,书都看了,总要留下点印记不是
通信
本质就是一个编解码和传输的过程
- 说话的信道很宽,不需要压缩
- 书写的信道很窄,尤其是古代没有纸张的时候,需要压缩,所以就有了文言文
从规则到统计
自然语言处理在过去的30年发生了巨大的变化
- 自动问答的需求很大程度上被网页搜索和数据挖掘替代了
- 研究也从单纯的句法分析和语义理解,变成了非常贴近实际应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识的获取
中文分词
构建两个词表,一个是基本词表,一个是复合词表,再根据两个词表分表建立两个语言模型:模型1,模型2,先对句子进行模型1分词,就得到了小颗粒度的分词结果,在此基础上,再用大颗粒度的模型2进行分词.
- 基本词比较稳定,除了会偶尔增加一点新词之外,一般不需要额外的研究
- 复合词增长速度较快,需要不断完善复合词的词典
隐马尔科夫模型
成功的解决了复杂的语音识别、机器翻译等问题
- 隐马尔科夫模型有两层,在语音识别上就表现为:
- 第一层是:一个词转到另外一个词的概率,这层是隐含的,【转换概率】
- 第二层是:拼音生成词语的概率【生成概率】
- 隐马尔科夫模型的两个必要算法
- 鲍姆-韦尔奇算法【训练算法】
- 维特比算法【解码算法】
信息的度量和作用
信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关的信息,来消除这些不确定性。
- 信息熵的物理含义是对一个信息系统不确定性的度量
- 互信息被广泛用于度量一些语言现象的相关性
- 相对熵也叫做交叉熵,也用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的的函数的相关性
- 对于两个相同的函数,它的相对熵等于零
- 相对熵越大,两个函数的差异性也就越大
- 对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性
布尔代数和搜索引擎
将所有的关键字建立索引,关键字的背后为网页的链接,通过布尔运算(and,or,not),将要需要的结果提取出来,【计算机做布尔运算非常的迅速】
- 布尔代数将逻辑和数学合二为一
- 真理在形式上从来都是简单的,而不是复杂和含混的
图论和网络爬虫
- 图论,广度优先,深度优先
- 爬虫,散列表,也叫hash表,用于记录是否下载过该信息
- 一般来说,广度优先在爬虫时应用的更为广泛
如何确定网页查询的相关性
- TF(Team Frequency):词频
- IDF(Inverse Document Frequency):你问本频率指数
网页排名
如果使用TF-IDF加上PageRank算法,那么给定一个查询,有关网页的综合排名大致由相关性和网页排名的乘积决定。
成功秘诀
先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业界成功的秘诀之一,许多失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。