【读书笔记】数学之美-笔记

随便总结的,书都看了,总要留下点印记不是

通信

本质就是一个编解码和传输的过程

  • 说话的信道很宽,不需要压缩
  • 书写的信道很窄,尤其是古代没有纸张的时候,需要压缩,所以就有了文言文

从规则到统计

自然语言处理在过去的30年发生了巨大的变化

  • 自动问答的需求很大程度上被网页搜索和数据挖掘替代了
  • 研究也从单纯的句法分析和语义理解,变成了非常贴近实际应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识的获取

中文分词

构建两个词表,一个是基本词表,一个是复合词表,再根据两个词表分表建立两个语言模型:模型1,模型2,先对句子进行模型1分词,就得到了小颗粒度的分词结果,在此基础上,再用大颗粒度的模型2进行分词.

  • 基本词比较稳定,除了会偶尔增加一点新词之外,一般不需要额外的研究
  • 复合词增长速度较快,需要不断完善复合词的词典

隐马尔科夫模型

成功的解决了复杂的语音识别、机器翻译等问题

  • 隐马尔科夫模型有两层,在语音识别上就表现为:
    • 第一层是:一个词转到另外一个词的概率,这层是隐含的,【转换概率】
    • 第二层是:拼音生成词语的概率【生成概率】
  • 隐马尔科夫模型的两个必要算法
    • 鲍姆-韦尔奇算法【训练算法】
    • 维特比算法【解码算法】

信息的度量和作用

信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关的信息,来消除这些不确定性。

  • 信息熵的物理含义是对一个信息系统不确定性的度量
  • 互信息被广泛用于度量一些语言现象的相关性
  • 相对熵也叫做交叉熵,也用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的的函数的相关性
    • 对于两个相同的函数,它的相对熵等于零
    • 相对熵越大,两个函数的差异性也就越大
    • 对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性

布尔代数和搜索引擎

将所有的关键字建立索引,关键字的背后为网页的链接,通过布尔运算(and,or,not),将要需要的结果提取出来,【计算机做布尔运算非常的迅速】

  • 布尔代数将逻辑和数学合二为一
  • 真理在形式上从来都是简单的,而不是复杂和含混的

图论和网络爬虫

  • 图论,广度优先,深度优先
  • 爬虫,散列表,也叫hash表,用于记录是否下载过该信息
  • 一般来说,广度优先在爬虫时应用的更为广泛

如何确定网页查询的相关性

  • TF(Team Frequency):词频
  • IDF(Inverse Document Frequency):你问本频率指数
网页排名

如果使用TF-IDF加上PageRank算法,那么给定一个查询,有关网页的综合排名大致由相关性和网页排名的乘积决定。

成功秘诀

先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业界成功的秘诀之一,许多失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章