隨便總結的,書都看了,總要留下點印記不是
通信
本質就是一個編解碼和傳輸的過程
- 說話的信道很寬,不需要壓縮
- 書寫的信道很窄,尤其是古代沒有紙張的時候,需要壓縮,所以就有了文言文
從規則到統計
自然語言處理在過去的30年發生了巨大的變化
- 自動問答的需求很大程度上被網頁搜索和數據挖掘替代了
- 研究也從單純的句法分析和語義理解,變成了非常貼近實際應用的機器翻譯、語音識別、文本到數據庫自動生成、數據挖掘和知識的獲取
中文分詞
構建兩個詞表,一個是基本詞表,一個是複合詞表,再根據兩個詞表分表建立兩個語言模型:模型1,模型2,先對句子進行模型1分詞,就得到了小顆粒度的分詞結果,在此基礎上,再用大顆粒度的模型2進行分詞.
- 基本詞比較穩定,除了會偶爾增加一點新詞之外,一般不需要額外的研究
- 複合詞增長速度較快,需要不斷完善複合詞的詞典
隱馬爾科夫模型
成功的解決了複雜的語音識別、機器翻譯等問題
- 隱馬爾科夫模型有兩層,在語音識別上就表現爲:
- 第一層是:一個詞轉到另外一個詞的概率,這層是隱含的,【轉換概率】
- 第二層是:拼音生成詞語的概率【生成概率】
- 隱馬爾科夫模型的兩個必要算法
- 鮑姆-韋爾奇算法【訓練算法】
- 維特比算法【解碼算法】
信息的度量和作用
信息的作用在於消除不確定性,自然語言處理的大量問題就是尋找相關的信息,來消除這些不確定性。
- 信息熵的物理含義是對一個信息系統不確定性的度量
- 互信息被廣泛用於度量一些語言現象的相關性
- 相對熵也叫做交叉熵,也用來衡量相關性,但和變量的互信息不同,它用來衡量兩個取值爲正數的的函數的相關性
- 對於兩個相同的函數,它的相對熵等於零
- 相對熵越大,兩個函數的差異性也就越大
- 對於概率分佈或者概率密度函數,如果取值均大於零,相對熵可以度量兩個隨機分佈的差異性
布爾代數和搜索引擎
將所有的關鍵字建立索引,關鍵字的背後爲網頁的鏈接,通過布爾運算(and,or,not),將要需要的結果提取出來,【計算機做布爾運算非常的迅速】
- 布爾代數將邏輯和數學合二爲一
- 真理在形式上從來都是簡單的,而不是複雜和含混的
圖論和網絡爬蟲
- 圖論,廣度優先,深度優先
- 爬蟲,散列表,也叫hash表,用於記錄是否下載過該信息
- 一般來說,廣度優先在爬蟲時應用的更爲廣泛
如何確定網頁查詢的相關性
- TF(Team Frequency):詞頻
- IDF(Inverse Document Frequency):你問本頻率指數
網頁排名
如果使用TF-IDF加上PageRank算法,那麼給定一個查詢,有關網頁的綜合排名大致由相關性和網頁排名的乘積決定。
成功祕訣
先幫助用戶解決80%的問題,再慢慢解決剩下的20%的問題,是在工業界成功的祕訣之一,許多失敗並不是因爲人不優秀,而是做事情的方法不對,一開始追求大而全的解決方案,之後長時間不能完成,最後不了了之。