【读书笔记】《数学之美》——一个好方法在形式上总是简单的


牛顿曾说“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的。”数学的美妙之处在于它对自然界史诗的总结和归纳,也是抽象思考的结果。作为一个思想上追求上进的伪程序员,一直深信数学的重要性。这本书还真让我对数学有了新的认识,不能说里面的内容懂得多少。但是对于数学的好感增多不少,抽象枯燥的理论更加生动实用了。

作者简介

吴军,原腾讯副总裁。吴军博士是当前Google中日韩文搜索算法的主要设计者。著有《数学之美》、《浪潮之巅》 、《文明之光》和《大学之路》。
他是一个还不错的摄影爱好者,一个古典音乐迷,喜欢享受高质量的影视,比如Blu-ray的电影。平时偶尔会修理园子,甚至做点木匠活。每年旅游很多次。

内容简介

数学之美
数学之美2
数学之美3

摘抄语录

  1. 信息通过编码(怪叫声)到信息信道,在通过解码(听到的声音)得到信息。

  2. 通信是翻译的需求,文字只是信息的载体,信息的冗余是信息安全的保障。

  3. 数字是计数系统的基础,十进制使用原因是掰指头。文字出现在远古“信息爆炸”导致,头脑装不下信息的时候,数字出现。

  4. 罗马,小数字出现在大数左边为减,出现在右边为加。Ⅳ:5-1 = 4;Ⅶ:5+2=7;印度、阿拉伯数字标志数字和文字的分离。

  5. 岭南客家话保留古代口语原貌,写出和清末民初的白话相似。

  6. 抄《圣经》避免出错,发明校验码,每一个希伯来字母对应一个数字,相加对比是否正确。

  7. 从字母到词的构词法是词的编码规则,语法则是语言的编码和解码规则。

  8. 语言的出现是为了人类间的通信,字母、文字和数字是信息编码的不同单位。

  9. 让计算机理解自然语言,分为分析语句和获取语义。

  10. 怀特兄弟发明飞机靠的是空气动力学而不是仿生学。

  11. 自然语言的处理从研究到应用的依赖关系,基础层(句法分析,语义分析)- 认知层(自然语言理解)- 应用层(语音识别,机器翻译,自动问答,自动摘要)

  12. 自然语言处理解决不了常识问题,统计语言统计核心模型是通信系统+隐含马尔可夫模型

  13. 老科学家可理解成“老科学的家”

  14. 自然语言处理的研究从句法分析和语义理解,变成贴近实际应用的机器翻译,语音识别,文本到数据库自动生成,数据挖掘和知识的获取。

  15. 马尔可夫假设:随机过程中各个状态St的概率分布,只与它的前一个状态St-1有关。针对不同应用,名称各不相同,语音识别“声学模型”;机器翻译“翻译模型”;拼写校正“纠错模型”。假设任一个词Wi,出现的概率只同它前面的词Wi-1有关。

  16. 数学的魅力在于将复杂的问题简单化。

  17. 分词最容易想到的方法是“查字典”,理论化为一句话应该分成数量最少的词串。

  18. 分词不一致的原因错误:1. 越界型“北京大学生”;2.覆盖性“贾里尼克”拆成四个字。

  19. 通信模型:信息上下文(发送者)通过编码转成传递的信息(信道)通过解码转成接受的信息(接受者)。

  20. 模型最初应用于通信领域,继而推广到语音和语言处理。它也是机器学习的主要工具之一,需要一个训练算法(鲍姆-韦尔奇算法)和使用时的解码算法(维特比算法)。

  21. 信息熵——不仅对信息的量化度量,而且是整个信息论的基础。变量的不确定性越大,熵就越大,要搞清楚,所需的信息量越大。

  22. 信息的作用是消除不确定性。

  23. 贾里尼克把语音识别问题当成通信问题,用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括清楚。

  24. 数学通信应用最广两个算法:SCJR 维特比。

  25. 搜索引擎要做的下载、索引、排序。自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。

  26. 二进制用0和1表示,还表示逻辑的“是”和“非”。实际应用实现开关电路、数字电路的基础。基本运算“与”“或”“非”搜文献关键字

  27. 古高尔(googol,10¹⁰⁰)Google公司名称来源于此。

  28. 如何向你的奶奶解释搜索引擎?图书馆的搜索卡片类比。搜索表,每一行对应一个关键字,后面一组数字包含该关键词的文献序号。

  29. 分布式存储,根据网页的重要性、质量和访问的频率建立常用和非常用等不同级别索引,常用的访问速度快,附加信息多,更新快。

  30. 自动下载互联网的所有网页——图论中的遍历。广度优先搜索(BFS)图的遍历算法;深度优先搜索(DFS)一条路走到黑。

  31. 第一个网络爬虫,找到页面里的所有超链接。门户网站首页出发,先下载这个网页,通过分析找到超链接。接下来访问、下载并分析门户网站的邮件等网页,又找到相连网页,遍历并记载哪个网页下载过了,以免重复使用“哈希表”“URL”表记录。

  32. PageRank算法衡量网页质量,核心思想:一个网页被很多其他网页所链接,把整个互联网当作整体,系统论。

  33. 影响搜索引擎质量因素:1.完备的索引;2.对网页质量的度量;3.用户偏好;4.确定网页和关键字相关性,搜索关键词权重的科学度量TF-IDF,关键词的频率(TF),各词权重不同。

  34. 手机定位和导航三项关键技术 一、利用卫星定位 二、地址的识别 三、根据用户输入起点和终点,在地图上规划最短/最快路线

  35. 有限状态机有一个开始状态,一个终止状态,以及若干中间状态。每条弧上带有从一个状态进入下一状态的条件。如 识别地址的状态机。

  36. 求最短距离,将路线一分为二必经过最短路线的某点。动态规划应用在识别地址、导航、语音识别、拼写拼音输入法、工业控制、生物序列分析。

  37. Google内部排序算法Ascorer里A便是阿米特·辛格博士名字首字母,坚持简单有效的解决方案,奉行简单哲学。
    38.** “雪中送炭”优于“锦上添花”,完成优于完美。**

  38. 召吴军回Google后要求“启动一个能领先微软五年的项目”。

  39. 新闻的特征向量,新闻中所有实词计算TF-IDF值,找出重要的主题词,按在词汇表位置排列得到向量。向量中每一维度的大小代表每个词对这篇新闻主题的贡献。当新闻从文字变成了数学后,计算机就有可能“算一算”新闻之间是否相似了。

  40. 聚类问题,如果两两计算多次迭代耗时长,所以利用矩阵运算中奇异值分解(SVD)。N个词M篇文章amn表示第N个词在第M篇出现的加权词频,拆成矩阵X是对词进行分类的一个结果,行是词列是语义类。矩阵Y是对文本的分类结果,列是文本行是主题。矩阵B是词的类和文章的类相关性。先进行奇异值分解,得到粗分类再计算向量余弦迭代精准。

  41. 将网址转成固定128位二进制整数,查询开销小。实现步骤:1.将字符串看成一个特殊、很长的整数;2.用产生信息指纹的关键算法:伪随机数产生器算法,可将任意很长的整数转换成特定长度的伪随机数。

  42. 互联网加密使用基于加密的随机数产生器(CSPRNG)

  43. 信息指纹的用途
    1)集合相同的判定(网络上歌曲是否盗版,搜索关键字)
    2)判定集合基本相同(网页是否重复,抄袭文章,挑部分比对)
    3)YouTube的反盗版,视频匹配核心技术,关键帧的提取和特征的提取

  44. 密码学自发时代,古罗马名将凯撒防止敌方截获情报,将常用词对应对个密码。

  45. 现代密码学祖宗是香农,现代电子计算机和提出博弈论的是冯诺依曼。

  46. 密码学算法原理找几个大素数做乘除和乘方运算。

  47. 密码学最高境界是无论敌方获取多少密文,也无法消除乙方情报系统的不确定性。公开秘钥是目前最常用的加密办法。

  48. 搜索引擎作弊行为:关键字;被引用链接;购买搜索广告。

  49. 做事情的办法有道和术两种境界。

  50. 通信中解决噪音干扰问题思路:
    1)从信息源出发,加强通信(编码)自身的抗干扰能力
    2)从传输来看,过滤掉噪音,还原信息

  51. 网页与搜索关键词的相关性
    1)对网页正文每句话进行句法分析,找出涉及主题的短语,对信息源的描述
    2)利用互信息,找到短语和信息源相关性
    3)对主题短语聚合聚类,采用矩阵运算
    4)对网站中的网页聚合,比如把下面的网页按照子域或子目录聚类

  52. 古埃及根据天狼星和太阳在一起的位置判断一年中的时间和节气。季度:365*4+1=1461天,天文学起源于古埃及。

  53. 吴军给Google中国和腾讯工程师总结以下几点结论:
    1)一个正确的数学模型应当在形式上是简单的
    2)一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确,但如果认定大方向是对的就应该坚持下去
    3)大量准确的数据对研发很重要
    4)正确的模型也可能受噪音干扰而显得不准确;这时不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源,这也许能通往重大的发现

  54. 最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应满足全部已知条件,而对未知的情况不要做出任何主观假设。

  55. 计算量巨大,在工程上实现方法的好坏决定了模型实用与否。

  56. 五笔输入法,记忆困难,“拆字”复杂。拼音输入法(全拼)优势:不需要专门学习;输入自然,找键时间短;编码长,信息冗余,容错性好。

  57. 香农第一原理:对于一个信息,任何编码的长度都不小于它的信息熵。

  58. 和在导航中寻找最短路径的算法相同,动态规划将汉语输入看成通信问题,输入法则是一个将拼音串变成汉字串的转换器。每个拼音对应多个汉字,把一个拼音串对应的汉字从左到右连起来就是一张有向图,称为网格图或篱笆图。

  59. 汉字输入就是人和计算机的通信,遵循通信的数学模型,使用信息论做指导。

  60. 将自然语言处理从基于规则研究方法转到基于统计的贡献最大两个人,贾里尼克和米奇·马库斯,后者建立标准的语料库组织(LDC)。

  61. 宾夕法尼亚大学精英:柯林斯:追求完美,文法分析器,“繁琐哲学”;布莱尔:简单才美,基于变换规则的机器学习方法。

  62. 拼音转汉字例子:
    1)把每个拼音对应的汉字中最常见的找出作为第一遍变换的结果,如“常识”“长识”
    2)“去伪存真”用计算机根据上下文,列举所有同音字替换规则,如如果chang被识别为“长”,后面汉字是“识”,则将“长”改为“常”。
    3)“去粗取精”将所有的规则应用到事先标识语料中,挑出有用,删除无用,重复二三步,直到找不出有用的为止。

  63. 集合用散列表(哈希表)存储,如Email地址对应一个8字节的信息指纹,存入散列表。由于散列表的存储效率一般只有50%,因此一个Email地址需占用16个字节。一亿个地址要1.6GB,布隆过滤器只要散列表1/8到1/4大小。实际是一个很长的二进制向量和一系列随机映射函数。快速,省空间,但有一定误识别率,补救办法再建立一个小的白名单。

  64. 结构的训练和参数的训练是交替进行,直至得到收敛或误差足够小的模型。

  65. Rephil利用贝叶斯网络建立文章、概念和关键词联系,将上百万关键词聚合成若干概念的聚类,上下文中同现。

  66. 条件随机场是计算联合概率分布的有效模型。是隐含马尔可夫模型的一种扩展。在警察预测犯罪地、时间、类型,有针对性巡视。模式识别,机器学习,生物统计,预防犯罪,灵活的用于预测的统计模型,形式简单,实现复杂。

  67. 拉纳帕提出把文法分析看成一个括括号的过程。

  68. 维特比和厄文·雅各布创办的高通公司,制定基于CDMA的3G移动通信标准。

  69. 维特比算法是一个特殊但应用最广的动态规划算法。第一步,从S点出发,对于第一个状态X1的各个节点,不妨假设有n1个,计算出S到它们的距离d(S,Xn),其中X1i代表任意状态1的节点,因为只有一步,所以这些距离都是S到它们各自的最短距离。第二步,这是理解整个算法的关键。对于第二状态X2所有节点,要计算出从S到它们的最短距离。我们知道对于特定的节点X2i,从S到它的路径可以经过状态1的n1中任何一个节点X1i,当然对应的路径长度是d(S,X2I)=d(S,X1j)+d(X1j,x2i)。由于j有n1种可能性,我们要一一计算。然后找到最小值,即d(S,X2I)=minz=1,n1 d(S,X1j)+d(X1j,x2i)。这样对于第二个状态的每个节点,需进行n1次乘法计算。假定这个状态有n2个节点,把S这些节点的距离都算一遍,有O(n1·n2)次计算。接下来,类似按上述方法,从第二个状态走到第三个状态。P232页

  70. CDMA技术—3G移动通信的基础贡献最大的是海蒂·拉玛尔和维特比。

  71. 扩频传输,在一个较宽的扩展频带上进行,和固定频率比优点:
    1)抗干扰能力强
    2)扩频传输的信号很难截获
    3)扩频传输利用带宽更充分

  72. CDMA以前,移动通信使用两种技术:频分多址(FDMA)如对讲机和时分多址(TDMA)。码多分址(CDMA)根据密码区分发送。

  73. 文本分类算法
    1)利用事先设定好的类别对新文本分类
    2)自底向上将文本两两比较聚类
    3)随机挑出类别的中心,然后优化中心,使他们和真实的聚类中心尽可能一致(即收敛)

  74. EM算法:首先根据现有模型计算各观测数据输入到模型中的计算结果,即期望值计算过程。接下来,重新计算模型参数,以最大化期望值。

  75. 竞价排名综合出价和点击率,关键技术预估点击率,根据以往经验并不可取。会有新广告、统计量少等问题干扰。

  76. 逻辑回归指一个事件出现的概率逐渐适应到一条逻辑曲线上(S型),是一种指数模型。训练方法可采用通用迭代算法GIS和改进迭代算法IIS。

  77. 云计算关键之一,把一个非常大的计算问题。自动分解到很多计算能力不是很强大的计算机上共同完成。Google解决工具MapReduce分治算法。

  78. 分治算法原理,将一个复杂问题分成若干简单子问题。然后对子问题结果合并,得到原问题的解。从分治算法到MapReduce,归并排序O(N·logN),冒泡排序O(N²)。将一个大任务拆分成小的子任务,并完成子任务计算叫Map,将中间结果合并成最终结果Reduce。

  79. 人工神经网络是一种特殊的有向图,包括神经元(节点)和神经(有向弧)。特性:1. 节点分层,每一层节点可通过有向弧指向上一层节点,但同一层节点间没有弧互相连接,而且每一个节点不能越过一层连上上层节点。2.每一条弧上有一个值(成为权重或权值),据此可用一个简单公式算出它们所指节点的值。分为输入层 – 中间层/隐含层 – 输出层。

  80. 训练人工神经网络分为有监督的训练和无监督的训练。有监督是既有输入数据(x),也有对应的输出数据(y)。无监督的有输入数据(x),没有对应的输出数据(y),根据定义新的容易计算的成本函数确定模型好坏。

  81. 人工神经网络与贝叶斯网络的关系,共同点:
    1)都是有向图,每一节点取值只取决于前一级,遵从马尔可夫假设
    2)训练方法相似
    3)对于很多模式分类问题效果相似
    4)训练计算量特别大
    不同点:1)人工神经网络在结构上完全标准化,贝叶斯更灵活
    2)神经元函数各个变量先进行线性组合,最后对一个变量进行非线性变换,而贝叶斯中变量可组合成任意函数
    3)贝叶斯网络更考虑前后的相关性,可解码一个输入序列,而人工神经网络输出相对独立,主要应用估计概率模型。

  82. “Google”大脑是一种大规模并行处理的人工神经网络。

  83. 人类的文明与进步,从某种意义上讲是通过对数据进行收集、处理和总结而达成的。伏羲演八卦,过去所听看证明归纳分类的正确性。天气和征战联系通过卦象抽象。

  84. 在Google内部,产品经理都遵循规则:在没有数据之前,不要做出任何结论。倾向于高估自己或夸大一件事情正面效果,忽视负面影响。

  85. 概率论是研究随机现象数量规律的数学分支,统计学是通过探索、整理、分析数据手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。

  86. 搜索用到的数据重要有两类,即网页本身的数据和用户点击的数据。搜索行业的“马太效应”,通过搜索量、搜索条(Toolbar),浏览器,输入法来收集点击行为。

  87. 在医疗保健行业,李文森博士提出无法治愈癌症原因:一、药是否有效和人的基因密切相关,不同的基因用不同的药;二、癌细胞的基因本身不断变化。

  88. 大数据的重要性,首先,只有当一些随机事件的组合一同出现多次以后,才能得到有意义统计规律;其次,大数据的采集过程是一个自然过程,有利于消除主观性的偏差;多维度的大数据才能让原本有联系但看似联系不太紧密的事件反复出现,然后发现新的规律。

  89. 计算分析之父高德纳将计算复杂度严格量化衡量,让算法好坏和问题大小不再有关。

收获感悟

花了几个月时间才看完这本书,不是写得太深奥,真是自己底子差空闲时间较少,读完真是好激动,大爱推荐!之前听过太多人推荐这本书了,有的人说他是数学启蒙书,将数学讲得简单又有趣,如果初中生或高中生阅读一定会爱上数学。有的人说他终于解开数学到底能做什么的谜底,生活中的问题通过数学的力量找到答案。而我读完这本书最深刻的印象是一个观念,一个好方法在形式上总是简单的。这句简短的话给我警醒,日常中的很多问题不要想得太过麻烦,也许细节上错综复杂,可是本质上,核心都是极其简单的。就像大自然的奥妙可以通过爱因斯坦总结的E=mc²,牛顿的F=ma,很简单的公式总结表达。我们要做的就是理清其中原理,抓住事物的核心本质吧。

上一篇:【读书笔记】《鬼谷子》——缓解焦虑改善人际妙用书

下一篇:【读书笔记】《读懂一本书》——年入过亿之人分享读书讲书之精髓

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章