統計自然語言處理基礎(一)

基礎認知

語言學的目的是爲了能夠描述和解釋我們周圍的語言現象。
人們對在自然語言處理中使用統計方法抱有的熱情,在很大程度上是 因爲他們看到了統計方法在解決實際問題時的前景,而這些問題正是傳統方法無法解決的。大家對語言使用形式的頻率感興趣是有清晰的,毋庸置疑的科學原因的。(統計學是研究語言的一種方法)
語言和認知 是隨機現象:把概率作爲理解語言的一種科學方法的最基本論點認爲,人類的認知是隨機的,因此語言也是隨機的,因爲它是認知的一個完整部分。
在語言中,大部分句子都是二值可分的(合乎語法、不合乎語法),而且在大多數情況下,單詞只使用一個詞性,沒有詞性混合的現象。但是如果語言和認知作爲一個整體,最好的解釋就是概率,那麼解釋語言理論的中心內容就必須是概率論。

數學基礎

  • 概率論基礎
  • 信息論基礎

語料庫—計算機

統計自然語言處理方法不僅需要大量的空間來存儲語料,而且經常需要從語料庫中收集大量的統計信息,所以要求計算機有比較快的存取速度。這就需要一臺硬盤足夠大,內存足夠多的計算機。

搭配

“搭配”是由兩個或兩個以上的詞所組成的語言表示,相當於說某些事情的習慣方式。

1.頻率
在一個文本語料庫中尋找搭配的最簡單的方法就是計數。如果兩個詞在一起出現了很多次,那麼這就是一個證據,說明它們有特殊的功能,這種功能不能簡單解釋爲兩個詞合併而導致的結果。
2.均值和方差
基於頻率的搜索方法可以很好地解決固定短語的識別問題,但是很多搭配是兩詞搭配,並且彼此之間的關係非常靈活。
對於有些組合來說,它可能不是一個我們想要的嚴格術語意義上的搭配,但是對於文本生成的目的來說它可能非常有用。如果我們想要尋找這樣的詞彙組合,在這些詞彙組合之間的聯繫比固定短語之間的聯繫更加鬆散,並且在他們之間插入的符號及其相對位置都是可變的,那麼這種基於方差的搭配發現方法是一個正確的選擇。
3. 假設檢驗
我們掩蓋至今的一個難題是,高頻率和低方差可能是偶然出現的。如果一個頻繁出現的二元組的兩個構成詞也是頻繁出現的詞,那麼我們可以預期這兩個詞同現很多次僅僅是一個偶然現象,它們甚至不能形成一個搭配。
事實上,我們真正想知道的是兩個詞同現的次數是否比偶然同現的次數更多。評價一個事件是否是偶然事件是統計學的經典問題之一。我們通常用假設檢驗來評價。
4.互信息
粗略地說是一種度量形式,表明一個詞和其他詞語有多大的聯繫。
我們可以說,互信息是衡量獨立性的一種很好的方法。接近0的互信息值表明了獨立性。但是互信息不是衡量依賴性的一種很好的方法,因爲對於依賴性來說,互信息的值是由單獨詞的頻率決定的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章