算法刷題(4)

題目一:基於統計的分詞方法爲()

A

正向最大匹配法

B

逆向最大匹配法

C

最少切分

D

條件隨機場

解析:答案(D)

分詞主要分爲三類:
第一類是基於語法和規則的分詞法。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來進行詞性標註,以解決分詞歧義現象。因爲現有的語法知識、句法規則十分籠統、複雜,基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意,目前這種分詞系統還處在試驗階段。

第二類是機械式分詞法(即基於詞典),A和B都是屬於這種。機械分詞的原理是將文檔中的字符串與詞典中的詞條進行逐一匹配,如果詞典中找到某個字符串,則匹配成功,可以切分,否則不予切分。基於詞典的機械分詞法,實現簡單,實用性強,但機械分詞法的最大的缺點就是詞典的完備性不能得到保證。據統計,用一個含有70000個詞的詞典去切分含有15000個詞的語料庫,仍然有30%以上的詞條沒有被分出來,也就是說有4500個詞沒有在詞典中登錄。

第三類是基於統計的方法。基於統計的分詞法的基本原理是根據字符串在語料庫中出現的統計頻率來決定其是否構成詞。詞是字的組合,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映它們成爲詞的可信度。

題目二:下面哪些對「類型 1(Type-1)」和「類型 2(Type-2)」錯誤的描述是錯誤的?

A

類型 1 通常稱之爲假正類,類型 2 通常稱之爲假負類

B

類型 2 通常稱之爲假正類,類型 1 通常稱之爲假負類

C

類型 1 錯誤通常在其是正確的情況下拒絕假設而出現

解析:正確答案是:A,在統計學假設測試中,I 類錯誤即錯誤地拒絕了正確的假設即假正類錯誤,II 類錯誤通常指錯誤地接受了錯誤的假設即假負類錯誤。參考

題目三:給線性迴歸模型添加一個不重要的特徵可能會造成?

A

增加 R-square

B

減少 R-square

解析:答案爲(A):在給特徵空間添加了一個特徵後,不論特徵是重要還是不重要,R-square 通常會增加。 R-square定義如下: 在給特徵空間添加了一個特徵後,分子會增加一個殘差平方項, 分母會增加一個均值差平方項, 前者一般小於後者, 所以不論特徵是重要還是不重要,R-square 通常會增加。


To be continue......

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章