【讀書筆記】《數學之美》——一個好方法在形式上總是簡單的


牛頓曾說“(人們)發覺真理在形式上從來是簡單的,而不是複雜和含混的。”數學的美妙之處在於它對自然界史詩的總結和歸納,也是抽象思考的結果。作爲一個思想上追求上進的僞程序員,一直深信數學的重要性。這本書還真讓我對數學有了新的認識,不能說裏面的內容懂得多少。但是對於數學的好感增多不少,抽象枯燥的理論更加生動實用了。

作者簡介

吳軍,原騰訊副總裁。吳軍博士是當前Google中日韓文搜索算法的主要設計者。著有《數學之美》、《浪潮之巔》 、《文明之光》和《大學之路》。
他是一個還不錯的攝影愛好者,一個古典音樂迷,喜歡享受高質量的影視,比如Blu-ray的電影。平時偶爾會修理園子,甚至做點木匠活。每年旅遊很多次。

內容簡介

數學之美
數學之美2
數學之美3

摘抄語錄

  1. 信息通過編碼(怪叫聲)到信息信道,在通過解碼(聽到的聲音)得到信息。

  2. 通信是翻譯的需求,文字只是信息的載體,信息的冗餘是信息安全的保障。

  3. 數字是計數系統的基礎,十進制使用原因是掰指頭。文字出現在遠古“信息爆炸”導致,頭腦裝不下信息的時候,數字出現。

  4. 羅馬,小數字出現在大數左邊爲減,出現在右邊爲加。Ⅳ:5-1 = 4;Ⅶ:5+2=7;印度、阿拉伯數字標誌數字和文字的分離。

  5. 嶺南客家話保留古代口語原貌,寫出和清末民初的白話相似。

  6. 抄《聖經》避免出錯,發明校驗碼,每一個希伯來字母對應一個數字,相加對比是否正確。

  7. 從字母到詞的構詞法是詞的編碼規則,語法則是語言的編碼和解碼規則。

  8. 語言的出現是爲了人類間的通信,字母、文字和數字是信息編碼的不同單位。

  9. 讓計算機理解自然語言,分爲分析語句和獲取語義。

  10. 懷特兄弟發明飛機靠的是空氣動力學而不是仿生學。

  11. 自然語言的處理從研究到應用的依賴關係,基礎層(句法分析,語義分析)- 認知層(自然語言理解)- 應用層(語音識別,機器翻譯,自動問答,自動摘要)

  12. 自然語言處理解決不了常識問題,統計語言統計核心模型是通信系統+隱含馬爾可夫模型

  13. 老科學家可理解成“老科學的家”

  14. 自然語言處理的研究從句法分析和語義理解,變成貼近實際應用的機器翻譯,語音識別,文本到數據庫自動生成,數據挖掘和知識的獲取。

  15. 馬爾可夫假設:隨機過程中各個狀態St的概率分佈,只與它的前一個狀態St-1有關。針對不同應用,名稱各不相同,語音識別“聲學模型”;機器翻譯“翻譯模型”;拼寫校正“糾錯模型”。假設任一個詞Wi,出現的概率只同它前面的詞Wi-1有關。

  16. 數學的魅力在於將複雜的問題簡單化。

  17. 分詞最容易想到的方法是“查字典”,理論化爲一句話應該分成數量最少的詞串。

  18. 分詞不一致的原因錯誤:1. 越界型“北京大學生”;2.覆蓋性“賈里尼克”拆成四個字。

  19. 通信模型:信息上下文(發送者)通過編碼轉成傳遞的信息(信道)通過解碼轉成接受的信息(接受者)。

  20. 模型最初應用於通信領域,繼而推廣到語音和語言處理。它也是機器學習的主要工具之一,需要一個訓練算法(鮑姆-韋爾奇算法)和使用時的解碼算法(維特比算法)。

  21. 信息熵——不僅對信息的量化度量,而且是整個信息論的基礎。變量的不確定性越大,熵就越大,要搞清楚,所需的信息量越大。

  22. 信息的作用是消除不確定性。

  23. 賈里尼克把語音識別問題當成通信問題,用兩個隱含馬爾可夫模型(聲學模型和語言模型)把語音識別概括清楚。

  24. 數學通信應用最廣兩個算法:SCJR 維特比。

  25. 搜索引擎要做的下載、索引、排序。自動下載儘可能多的網頁;建立快速有效的索引;根據相關性對網頁進行公平準確的排序。

  26. 二進制用0和1表示,還表示邏輯的“是”和“非”。實際應用實現開關電路、數字電路的基礎。基本運算“與”“或”“非”搜文獻關鍵字

  27. 古高爾(googol,10¹⁰⁰)Google公司名稱來源於此。

  28. 如何向你的奶奶解釋搜索引擎?圖書館的搜索卡片類比。搜索表,每一行對應一個關鍵字,後面一組數字包含該關鍵詞的文獻序號。

  29. 分佈式存儲,根據網頁的重要性、質量和訪問的頻率建立常用和非常用等不同級別索引,常用的訪問速度快,附加信息多,更新快。

  30. 自動下載互聯網的所有網頁——圖論中的遍歷。廣度優先搜索(BFS)圖的遍歷算法;深度優先搜索(DFS)一條路走到黑。

  31. 第一個網絡爬蟲,找到頁面裏的所有超鏈接。門戶網站首頁出發,先下載這個網頁,通過分析找到超鏈接。接下來訪問、下載並分析門戶網站的郵件等網頁,又找到相連網頁,遍歷並記載哪個網頁下載過了,以免重複使用“哈希表”“URL”表記錄。

  32. PageRank算法衡量網頁質量,核心思想:一個網頁被很多其他網頁所鏈接,把整個互聯網當作整體,系統論。

  33. 影響搜索引擎質量因素:1.完備的索引;2.對網頁質量的度量;3.用戶偏好;4.確定網頁和關鍵字相關性,搜索關鍵詞權重的科學度量TF-IDF,關鍵詞的頻率(TF),各詞權重不同。

  34. 手機定位和導航三項關鍵技術 一、利用衛星定位 二、地址的識別 三、根據用戶輸入起點和終點,在地圖上規劃最短/最快路線

  35. 有限狀態機有一個開始狀態,一個終止狀態,以及若干中間狀態。每條弧上帶有從一個狀態進入下一狀態的條件。如 識別地址的狀態機。

  36. 求最短距離,將路線一分爲二必經過最短路線的某點。動態規劃應用在識別地址、導航、語音識別、拼寫拼音輸入法、工業控制、生物序列分析。

  37. Google內部排序算法Ascorer裏A便是阿米特·辛格博士名字首字母,堅持簡單有效的解決方案,奉行簡單哲學。
    38.** “雪中送炭”優於“錦上添花”,完成優於完美。**

  38. 召吳軍回Google後要求“啓動一個能領先微軟五年的項目”。

  39. 新聞的特徵向量,新聞中所有實詞計算TF-IDF值,找出重要的主題詞,按在詞彙表位置排列得到向量。向量中每一維度的大小代表每個詞對這篇新聞主題的貢獻。當新聞從文字變成了數學後,計算機就有可能“算一算”新聞之間是否相似了。

  40. 聚類問題,如果兩兩計算多次迭代耗時長,所以利用矩陣運算中奇異值分解(SVD)。N個詞M篇文章amn表示第N個詞在第M篇出現的加權詞頻,拆成矩陣X是對詞進行分類的一個結果,行是詞列是語義類。矩陣Y是對文本的分類結果,列是文本行是主題。矩陣B是詞的類和文章的類相關性。先進行奇異值分解,得到粗分類再計算向量餘弦迭代精準。

  41. 將網址轉成固定128位二進制整數,查詢開銷小。實現步驟:1.將字符串看成一個特殊、很長的整數;2.用產生信息指紋的關鍵算法:僞隨機數產生器算法,可將任意很長的整數轉換成特定長度的僞隨機數。

  42. 互聯網加密使用基於加密的隨機數產生器(CSPRNG)

  43. 信息指紋的用途
    1)集合相同的判定(網絡上歌曲是否盜版,搜索關鍵字)
    2)判定集合基本相同(網頁是否重複,抄襲文章,挑部分比對)
    3)YouTube的反盜版,視頻匹配核心技術,關鍵幀的提取和特徵的提取

  44. 密碼學自發時代,古羅馬名將凱撒防止敵方截獲情報,將常用詞對應對個密碼。

  45. 現代密碼學祖宗是香農,現代電子計算機和提出博弈論的是馮諾依曼。

  46. 密碼學算法原理找幾個大素數做乘除和乘方運算。

  47. 密碼學最高境界是無論敵方獲取多少密文,也無法消除乙方情報系統的不確定性。公開祕鑰是目前最常用的加密辦法。

  48. 搜索引擎作弊行爲:關鍵字;被引用鏈接;購買搜索廣告。

  49. 做事情的辦法有道和術兩種境界。

  50. 通信中解決噪音干擾問題思路:
    1)從信息源出發,加強通信(編碼)自身的抗干擾能力
    2)從傳輸來看,過濾掉噪音,還原信息

  51. 網頁與搜索關鍵詞的相關性
    1)對網頁正文每句話進行句法分析,找出涉及主題的短語,對信息源的描述
    2)利用互信息,找到短語和信息源相關性
    3)對主題短語聚合聚類,採用矩陣運算
    4)對網站中的網頁聚合,比如把下面的網頁按照子域或子目錄聚類

  52. 古埃及根據天狼星和太陽在一起的位置判斷一年中的時間和節氣。季度:365*4+1=1461天,天文學起源於古埃及。

  53. 吳軍給Google中國和騰訊工程師總結以下幾點結論:
    1)一個正確的數學模型應當在形式上是簡單的
    2)一個正確的模型一開始可能還不如一個精雕細琢過的錯誤模型來的準確,但如果認定大方向是對的就應該堅持下去
    3)大量準確的數據對研發很重要
    4)正確的模型也可能受噪音干擾而顯得不準確;這時不應該用一種湊合的修正方法加以彌補,而是要找到噪音的根源,這也許能通往重大的發現

  54. 最大熵原理指出,對一個隨機事件的概率分佈進行預測時,我們的預測應滿足全部已知條件,而對未知的情況不要做出任何主觀假設。

  55. 計算量巨大,在工程上實現方法的好壞決定了模型實用與否。

  56. 五筆輸入法,記憶困難,“拆字”複雜。拼音輸入法(全拼)優勢:不需要專門學習;輸入自然,找鍵時間短;編碼長,信息冗餘,容錯性好。

  57. 香農第一原理:對於一個信息,任何編碼的長度都不小於它的信息熵。

  58. 和在導航中尋找最短路徑的算法相同,動態規劃將漢語輸入看成通信問題,輸入法則是一個將拼音串變成漢字串的轉換器。每個拼音對應多個漢字,把一個拼音串對應的漢字從左到右連起來就是一張有向圖,稱爲網格圖或籬笆圖。

  59. 漢字輸入就是人和計算機的通信,遵循通信的數學模型,使用信息論做指導。

  60. 將自然語言處理從基於規則研究方法轉到基於統計的貢獻最大兩個人,賈里尼克和米奇·馬庫斯,後者建立標準的語料庫組織(LDC)。

  61. 賓夕法尼亞大學精英:柯林斯:追求完美,文法分析器,“繁瑣哲學”;布萊爾:簡單才美,基於變換規則的機器學習方法。

  62. 拼音轉漢字例子:
    1)把每個拼音對應的漢字中最常見的找出作爲第一遍變換的結果,如“常識”“長識”
    2)“去僞存真”用計算機根據上下文,列舉所有同音字替換規則,如如果chang被識別爲“長”,後面漢字是“識”,則將“長”改爲“常”。
    3)“去粗取精”將所有的規則應用到事先標識語料中,挑出有用,刪除無用,重複二三步,直到找不出有用的爲止。

  63. 集合用散列表(哈希表)存儲,如Email地址對應一個8字節的信息指紋,存入散列表。由於散列表的存儲效率一般只有50%,因此一個Email地址需佔用16個字節。一億個地址要1.6GB,布隆過濾器只要散列表1/8到1/4大小。實際是一個很長的二進制向量和一系列隨機映射函數。快速,省空間,但有一定誤識別率,補救辦法再建立一個小的白名單。

  64. 結構的訓練和參數的訓練是交替進行,直至得到收斂或誤差足夠小的模型。

  65. Rephil利用貝葉斯網絡建立文章、概念和關鍵詞聯繫,將上百萬關鍵詞聚合成若干概念的聚類,上下文中同現。

  66. 條件隨機場是計算聯合概率分佈的有效模型。是隱含馬爾可夫模型的一種擴展。在警察預測犯罪地、時間、類型,有針對性巡視。模式識別,機器學習,生物統計,預防犯罪,靈活的用於預測的統計模型,形式簡單,實現複雜。

  67. 拉納帕提出把文法分析看成一個括括號的過程。

  68. 維特比和厄文·雅各布創辦的高通公司,制定基於CDMA的3G移動通信標準。

  69. 維特比算法是一個特殊但應用最廣的動態規劃算法。第一步,從S點出發,對於第一個狀態X1的各個節點,不妨假設有n1個,計算出S到它們的距離d(S,Xn),其中X1i代表任意狀態1的節點,因爲只有一步,所以這些距離都是S到它們各自的最短距離。第二步,這是理解整個算法的關鍵。對於第二狀態X2所有節點,要計算出從S到它們的最短距離。我們知道對於特定的節點X2i,從S到它的路徑可以經過狀態1的n1中任何一個節點X1i,當然對應的路徑長度是d(S,X2I)=d(S,X1j)+d(X1j,x2i)。由於j有n1種可能性,我們要一一計算。然後找到最小值,即d(S,X2I)=minz=1,n1 d(S,X1j)+d(X1j,x2i)。這樣對於第二個狀態的每個節點,需進行n1次乘法計算。假定這個狀態有n2個節點,把S這些節點的距離都算一遍,有O(n1·n2)次計算。接下來,類似按上述方法,從第二個狀態走到第三個狀態。P232頁

  70. CDMA技術—3G移動通信的基礎貢獻最大的是海蒂·拉瑪爾和維特比。

  71. 擴頻傳輸,在一個較寬的擴展頻帶上進行,和固定頻率比優點:
    1)抗干擾能力強
    2)擴頻傳輸的信號很難截獲
    3)擴頻傳輸利用帶寬更充分

  72. CDMA以前,移動通信使用兩種技術:頻分多址(FDMA)如對講機和時分多址(TDMA)。碼多分址(CDMA)根據密碼區分發送。

  73. 文本分類算法
    1)利用事先設定好的類別對新文本分類
    2)自底向上將文本兩兩比較聚類
    3)隨機挑出類別的中心,然後優化中心,使他們和真實的聚類中心儘可能一致(即收斂)

  74. EM算法:首先根據現有模型計算各觀測數據輸入到模型中的計算結果,即期望值計算過程。接下來,重新計算模型參數,以最大化期望值。

  75. 競價排名綜合出價和點擊率,關鍵技術預估點擊率,根據以往經驗並不可取。會有新廣告、統計量少等問題干擾。

  76. 邏輯迴歸指一個事件出現的概率逐漸適應到一條邏輯曲線上(S型),是一種指數模型。訓練方法可採用通用迭代算法GIS和改進迭代算法IIS。

  77. 雲計算關鍵之一,把一個非常大的計算問題。自動分解到很多計算能力不是很強大的計算機上共同完成。Google解決工具MapReduce分治算法。

  78. 分治算法原理,將一個複雜問題分成若干簡單子問題。然後對子問題結果合併,得到原問題的解。從分治算法到MapReduce,歸併排序O(N·logN),冒泡排序O(N²)。將一個大任務拆分成小的子任務,並完成子任務計算叫Map,將中間結果合併成最終結果Reduce。

  79. 人工神經網絡是一種特殊的有向圖,包括神經元(節點)和神經(有向弧)。特性:1. 節點分層,每一層節點可通過有向弧指向上一層節點,但同一層節點間沒有弧互相連接,而且每一個節點不能越過一層連上上層節點。2.每一條弧上有一個值(成爲權重或權值),據此可用一個簡單公式算出它們所指節點的值。分爲輸入層 – 中間層/隱含層 – 輸出層。

  80. 訓練人工神經網絡分爲有監督的訓練和無監督的訓練。有監督是既有輸入數據(x),也有對應的輸出數據(y)。無監督的有輸入數據(x),沒有對應的輸出數據(y),根據定義新的容易計算的成本函數確定模型好壞。

  81. 人工神經網絡與貝葉斯網絡的關係,共同點:
    1)都是有向圖,每一節點取值只取決於前一級,遵從馬爾可夫假設
    2)訓練方法相似
    3)對於很多模式分類問題效果相似
    4)訓練計算量特別大
    不同點:1)人工神經網絡在結構上完全標準化,貝葉斯更靈活
    2)神經元函數各個變量先進行線性組合,最後對一個變量進行非線性變換,而貝葉斯中變量可組合成任意函數
    3)貝葉斯網絡更考慮前後的相關性,可解碼一個輸入序列,而人工神經網絡輸出相對獨立,主要應用估計概率模型。

  82. “Google”大腦是一種大規模並行處理的人工神經網絡。

  83. 人類的文明與進步,從某種意義上講是通過對數據進行收集、處理和總結而達成的。伏羲演八卦,過去所聽看證明歸納分類的正確性。天氣和征戰聯繫通過卦象抽象。

  84. 在Google內部,產品經理都遵循規則:在沒有數據之前,不要做出任何結論。傾向於高估自己或誇大一件事情正面效果,忽視負面影響。

  85. 概率論是研究隨機現象數量規律的數學分支,統計學是通過探索、整理、分析數據手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。

  86. 搜索用到的數據重要有兩類,即網頁本身的數據和用戶點擊的數據。搜索行業的“馬太效應”,通過搜索量、搜索條(Toolbar),瀏覽器,輸入法來收集點擊行爲。

  87. 在醫療保健行業,李文森博士提出無法治癒癌症原因:一、藥是否有效和人的基因密切相關,不同的基因用不同的藥;二、癌細胞的基因本身不斷變化。

  88. 大數據的重要性,首先,只有當一些隨機事件的組合一同出現多次以後,才能得到有意義統計規律;其次,大數據的採集過程是一個自然過程,有利於消除主觀性的偏差;多維度的大數據才能讓原本有聯繫但看似聯繫不太緊密的事件反覆出現,然後發現新的規律。

  89. 計算分析之父高德納將計算複雜度嚴格量化衡量,讓算法好壞和問題大小不再有關。

收穫感悟

花了幾個月時間纔看完這本書,不是寫得太深奧,真是自己底子差空閒時間較少,讀完真是好激動,大愛推薦!之前聽過太多人推薦這本書了,有的人說他是數學啓蒙書,將數學講得簡單又有趣,如果初中生或高中生閱讀一定會愛上數學。有的人說他終於解開數學到底能做什麼的謎底,生活中的問題通過數學的力量找到答案。而我讀完這本書最深刻的印象是一個觀念,一個好方法在形式上總是簡單的。這句簡短的話給我警醒,日常中的很多問題不要想得太過麻煩,也許細節上錯綜複雜,可是本質上,核心都是極其簡單的。就像大自然的奧妙可以通過愛因斯坦總結的E=mc²,牛頓的F=ma,很簡單的公式總結表達。我們要做的就是理清其中原理,抓住事物的核心本質吧。

上一篇:【讀書筆記】《鬼谷子》——緩解焦慮改善人際妙用書

下一篇:【讀書筆記】《讀懂一本書》——年入過億之人分享讀書講書之精髓

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章