基礎認知

語言學的目的是爲了能夠描述和解釋我們周圍的語言現象。

人們對在自然語言處理中使用統計方法抱有的熱情，在很大程度上是因爲他們看到了統計方法在解決實際問題時的前景，而這些問題正是傳統方法無法解決的。大家對語言使用形式的頻率感興趣是有清晰的，毋庸置疑的科學原因的。（統計學是研究語言的一種方法）

語言和認知是隨機現象：把概率作爲理解語言的一種科學方法的最基本論點認爲，人類的認知是隨機的，因此語言也是隨機的，因爲它是認知的一個完整部分。

在語言中，大部分句子都是二值可分的（合乎語法、不合乎語法），而且在大多數情況下，單詞只使用一個詞性，沒有詞性混合的現象。但是如果語言和認知作爲一個整體，最好的解釋就是概率，那麼解釋語言理論的中心內容就必須是概率論。

數學基礎

概率論基礎
信息論基礎

語料庫—計算機

統計自然語言處理方法不僅需要大量的空間來存儲語料，而且經常需要從語料庫中收集大量的統計信息，所以要求計算機有比較快的存取速度。這就需要一臺硬盤足夠大，內存足夠多的計算機。

搭配

“搭配”是由兩個或兩個以上的詞所組成的語言表示，相當於說某些事情的習慣方式。

1.頻率
在一個文本語料庫中尋找搭配的最簡單的方法就是計數。如果兩個詞在一起出現了很多次，那麼這就是一個證據，說明它們有特殊的功能，這種功能不能簡單解釋爲兩個詞合併而導致的結果。
2.均值和方差
基於頻率的搜索方法可以很好地解決固定短語的識別問題，但是很多搭配是兩詞搭配，並且彼此之間的關係非常靈活。
對於有些組合來說，它可能不是一個我們想要的嚴格術語意義上的搭配，但是對於文本生成的目的來說它可能非常有用。如果我們想要尋找這樣的詞彙組合，在這些詞彙組合之間的聯繫比固定短語之間的聯繫更加鬆散，並且在他們之間插入的符號及其相對位置都是可變的，那麼這種基於方差的搭配發現方法是一個正確的選擇。
3. 假設檢驗
我們掩蓋至今的一個難題是，高頻率和低方差可能是偶然出現的。如果一個頻繁出現的二元組的兩個構成詞也是頻繁出現的詞，那麼我們可以預期這兩個詞同現很多次僅僅是一個偶然現象，它們甚至不能形成一個搭配。
事實上，我們真正想知道的是兩個詞同現的次數是否比偶然同現的次數更多。評價一個事件是否是偶然事件是統計學的經典問題之一。我們通常用假設檢驗來評價。
4.互信息
粗略地說是一種度量形式，表明一個詞和其他詞語有多大的聯繫。
我們可以說，互信息是衡量獨立性的一種很好的方法。接近0的互信息值表明了獨立性。但是互信息不是衡量依賴性的一種很好的方法，因爲對於依賴性來說，互信息的值是由單獨詞的頻率決定的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

統計自然語言處理基礎（一）

基礎認知

語言學的目的是爲了能夠描述和解釋我們周圍的語言現象。

語言和認知是隨機現象：把概率作爲理解語言的一種科學方法的最基本論點認爲，人類的認知是隨機的，因此語言也是隨機的，因爲它是認知的一個完整部分。

數學基礎

語料庫—計算機

統計自然語言處理方法不僅需要大量的空間來存儲語料，而且經常需要從語料庫中收集大量的統計信息，所以要求計算機有比較快的存取速度。這就需要一臺硬盤足夠大，內存足夠多的計算機。

搭配

“搭配”是由兩個或兩個以上的詞所組成的語言表示，相當於說某些事情的習慣方式。

Jupyter Notebook知識點

math標準庫函數----python

面向對象編程之生成器與迭代器

統計自然語言處理基礎（一）

面向對象編程（第五篇）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

統計自然語言處理基礎（一）

基礎認知

語言學的目的是爲了能夠描述和解釋我們周圍的語言現象。

語言和認知 是隨機現象：把概率作爲理解語言的一種科學方法的最基本論點認爲，人類的認知是隨機的，因此語言也是隨機的，因爲它是認知的一個完整部分。

數學基礎

語料庫—計算機

統計自然語言處理方法不僅需要大量的空間來存儲語料，而且經常需要從語料庫中收集大量的統計信息，所以要求計算機有比較快的存取速度。這就需要一臺硬盤足夠大，內存足夠多的計算機。

搭配

“搭配”是由兩個或兩個以上的詞所組成的語言表示，相當於說某些事情的習慣方式。

語言和認知是隨機現象：把概率作爲理解語言的一種科學方法的最基本論點認爲，人類的認知是隨機的，因此語言也是隨機的，因爲它是認知的一個完整部分。