計算機速成課第三十六集自然語言處理

原創

2022-06-04 14:07

1. 背景：

編程語言的詞彙量一般很少，而且非常結構化，代碼只能在拼寫和語法完全正確時，編輯和運行
人類語言叫「自然語言」，有大量的詞彙，不同的詞義，不同的口音
讓計算機擁有語音對話的能力，這個想法從構思計算機就有了
「自然語言處理」因此誕生，簡稱 NLP，它是結合了計算機科學和語言學的一個跨學科領域
NLP 早起的一個基本問題是怎麼把句子切成一塊塊，數據塊越小越容易處理

2. 詞性

名詞、代詞、冠詞、動詞、形容詞、副詞、介詞、連詞和感嘆詞
子類
- 單數名詞 VS 複數名詞
- 副詞最高級 VS 副詞比較級

3. 短語結構規則

電腦也需要知道語法，因此開發了「短語結構規則」來代表語法規則

4. 分析樹

給語言制定的一系列的規則，用這些規則可以做出「分析樹」
作用：給每個單詞標了可能是什麼詞性，也標明瞭句子的結構

5. 語音識別

計算機從聲音中提取詞彙，這個領域叫做「語音識別」
貝爾實驗室在 1952 年推出了第一個語音識別系統，綽號 Audrey，自動數字識別器
1962 年的世界博覽會上，IBM 展示了一個鞋盒大小的機器，能識別 16 個單詞
1971 年，DARPA 啓動了一項雄心勃勃的五年籌資計劃，之後誕生了卡內基梅隆大學的 Harpy
Harpy 是第一個可以識別 1000 個單詞以上的系統

6. 譜圖

橫軸是時間，縱軸是不同頻率的振幅，顏色越亮，那個頻率的聲音越大
這種從波形到頻率的轉換，是用一種算法實現的，這個算法叫做「快速傅立葉變換 FFT」
舉例：和立體聲系統的 EQ 可視化器類似
譜圖是隨着時間變化的

7. 音素

構成單詞的聲音片段
英語大概有 44 種音素
語音識別軟件知道這些音素，所以本質上變成了音素識別

8. 語音合成

用途：讓計算機輸出語音，很像語音識別，不過反過來把一段文字，分解成多個聲音，然後播放這些聲音
早期語音合成技術，可以清楚聽到音素是拼在一起的
舉例：
- 1937 年，貝爾實驗室的手動操作機器
- 如今，Siri, Cortana, Alexa 好了很多，但還不夠像人

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《期貨-市場技術分析》讀書筆記

第二本技術分析書籍，《期貨-市場分析技術》：書中的很多內容，如趨勢、趨勢線、阻力、支撐等，也象《日本蠟燭圖》一樣，沒有邏輯推理過程，沒有數據驗證。但是我認可其確實有一定的心理暗示作用。因爲我在聽很多技術分析大 V 的視頻時，他們中的大部

2024-04-29 14:32:19

《日本蠟燭圖》讀書筆記 & 技術分析回測

最近想做一些現金流的策略，所以決定把技術分析研究得更加深入一些。朋友推薦了幾本書：《日本蠟燭圖》、《期貨市場技術分析》、《纏論》，我想挨個把它們看完，同步也嘗試做一些量化技術策略。日本蠟燭圖下面這本書就是上面所說的第一本：其實，我是

2024-04-29 14:32:19

pytest lastfailed原理

相信很多使用pytest的，都知道pytest有運行上次失敗用例的參數，如下： --lf, --last-failed rerun only the tests that failed at the last run (or all

2024-04-29 14:24:29

一個開源輕量級的C#代碼格式化工具（支持VS和VS Code）

前言 C#代碼格式化工具除了ReSharper和CodeMaid，還有一款由.NET開源、免費（MIT License）、輕量級的C#語言代碼格式化工具：CSharpier。工具介紹 CSharpier是一款開源、免費、輕量級的C#語言代

2024-04-29 14:22:08

頂級 Javaer 都在用的 20 個類庫，真香！

優秀且經驗豐富的Java開發人員的特徵之一是對API的廣泛瞭解，包括JDK和第三方庫。我花了很多時間來學習API，尤其是在閱讀了Effective Java 3rd Edition之後，Joshua Bloch建議在Java 3rd E

2024-04-29 14:21:48

Linux內核之SPI協議

SPI(Serial Peripheral Interface，串行外設接口)是一種同步串行的行業標準，但是並沒有像I2C那樣有標準文檔，它還有主從、可片選的特性。圖源自Serial Peripheral Interface-wikip

藍天上的雲℡

2024-04-29 14:21:38

mongodb處理json數據很好

mysql只適合處理簡單的一級數據表複雜嵌套的json用mongodb mongodb實現: 插入: //切記數字不要帶引號,帶引號就字符串了,就無法比較大小了. //每一個對象都用{}包起來.這樣查詢時候方便多了.雖然插入寫起

張博的博客

2024-04-29 14:20:08

【Nano Framework ESP32篇】使用 LCD 屏幕

在開始主題之前，先介紹一個刷固件工具。這個工具在 idf 中是集成的，不過，樂鑫也單獨發佈了這個工具—— esptool。下載鏈接：Releases · espressif/esptool · GitHub。這貨是用 Python 寫的，只

2024-04-29 14:16:57

雙token+redis（token無感刷新）

爲什麼要使用雙token+redis呢？單token+redis+自動續期不行嗎？單token+redis的缺點：可能會出現用戶正在操作的時候，token過期了，讓用戶重新登錄的情況。單token+redis+自動續期的缺點：單to

2024-04-29 14:15:37

cookie,session,token的區別

cookie,session,token它們本質上不是同一個東西。但是都跟維持狀態信息有關係。什麼是狀態信息呢？我來用一個登錄來個大家講解。如果我們登錄以後，希望後續的所有的頁面都維持登錄的狀態，那我們就需要用剛剛講到的cookie，

2024-04-29 14:15:37

Asp .Net Core 系列：國際化多語言配置

目錄概述術語本地化器IStringLocalizer在服務類中使用本地化IStringLocalizerFactoryIHtmlLocalizerIViewLocalizer資源文件區域性回退配置 CultureProvider內置的 Re

2024-04-29 14:14:57

編譯原理PL0語法分析實驗1

編譯原理PL0語法分析實驗1 1，待分析的簡單語言的詞法相同點：都是分析種別碼不同點：詞法分析器分析的是字符串中的單詞的種別碼（單詞）語法分析器分析的是字符串的文法是否正確（句子）待分析的簡單語言的語法 BNF：（1）<程序>::=begi

2024-04-29 14:13:26

google瀏覽器插件開發

項目結構在開發Chrome插件時，以下幾個文件的作用如下： manifest.json：這是Chrome插件的清單文件，用於配置插件的基本信息、權限、頁面跳轉等。其中包括插件的名稱、版本號、圖標、後臺腳本、瀏覽器動作等信息。 ba

2024-04-29 14:12:46

element表單中選擇 el-date-picker 選擇後沒反應

折騰一早上沒有用直到百度到了 https://blog.csdn.net/KeepReal666/article/details/134471038 解決辦法：直接加上@input="$forceUpdate()"即可。

2024-04-29 14:09:56

什麼是SQL 語句中相關子查詢與非相關子查詢

1.什麼是SQL子查詢要理解相關子查詢和非相關子查詢，我們得首先理解什麼是子查詢，子查詢是指在一個查詢語句中嵌套的另一個查詢語句。子查詢可以嵌套在其他查詢語句中，如 SELECT、INSERT、UPDATE、DELETE 等，它作爲一個

2024-04-29 14:06:35

24小時熱門文章

最新文章

最新評論文章