重要的數據挖掘和機器學習算法

1.廣度神經網絡:

2.中文分詞算法:

方法:(1)基於詞典的方法:逐詞匹配法,最大匹配法,逆向最大匹配法,雙向匹配法;(優點)算法簡單,易於實現;(缺點)匹配速度慢,存在歧義切分,無法智能匹配

            (2)基於統計的方法:統計量(詞頻,互信息量,t-測試差);統計方法(N-元分詞,隱馬爾科夫模型,最大熵模型);(優點)自動識別陌生詞,自動消除歧義

            (3)基於理解的方法:專家系統方法,神經網絡方法,生成-測試方法;(優點)知識處理爲動態演化過程,能夠實現智能匹配,加入新詞對結果影響不大,字詞模型與輸入過程匹配,切分方式與輸出過程匹配,能有效發現歧義

方法比較:是否消歧,是否智能,是否需要詞典,是否需要語料庫,是否需要規則庫,是否準確,是否快速,實現是否複雜,是否通用

方法結合:基於字典的方法與基於統計的方法結合,分詞與詞性標註相結合

歧義類型:交叉歧義,覆蓋歧義

消歧方法:窮舉法(雙向匹配法),詞性標註法,EM期望最大化法,聯想-回溯方法,短語匹配和語義規則方法

未登錄詞分類:專用未登錄詞,通用未登錄詞

專用未登錄詞識別方法:候選詞表,猜測未登錄詞

通用未登錄詞:建庫,啓發式規則(如:史密斯先生),錢數三種通用方法

3.垃圾郵件過濾(採用貝葉斯算法)

垃圾郵件:截斷源頭,郵件過濾

數據集:垃圾郵件過濾語料庫

評價標準:召回率,正確率,精確率,錯誤率

方法:(1)黑名單/白名單,手工指定規則(2)基於內容的機器學習判定方法

基於內容的機器學習判定方法:(1)基於規則的(2)基於統計的

基於規則的:(1)決策樹分類方法(2)Ripper分類方法(3)Boosting強分類器分類方法(4)粗糙集分類方法

基於統計的:(1)kNN最近鄰方法(2)rocchio向量距離方法(3)window特徵的權重向量方法(5)svm最優線性分類面方法(6)bayes方法(伯努利分佈,多項式分佈,高斯分佈)

4.推薦系統

5.梯度下降算法

6.序列模式挖掘:序列模式挖掘就是挖掘相對於時間或其它模式出現頻率較高的模式

7,數據挖掘流程:背景瞭解,數據選擇,數據預處理,數據變換,數據挖掘(挖掘目標瞭解,挖掘算法選擇,挖掘過程展開),挖掘性能評估,挖掘效果可視化

8.數據預處理的重要性:保證數據質量(完整性,準確性,一致性,時效性,可信性,可理解性),進行數據清理(缺失值和噪聲數據),數據集成(實體識別,冗餘和相關分析,元組重複,數據值衝突),數據規約(數據屬性規約,數據屬性值規約),數據變換

9.svm算法,核函數就是將線性不可分低維空間向量映射到線性可分高維空間的向量後,向量的內積函數

10.最小二乘法(迴歸分析):預測分析使用

11.粗糙集和模糊集:粗糙集用來推斷規則的,模糊集用來模糊屬性界限的

12.信息熵:衡量未知屬性情況下集合的分類信息量大小

13.馬爾剋夫鏈

信息增益:衡量已知某屬性情況下集合的分類信息量大小,屬性的所有值情況下集合的分類信息量加權之和

信息增益比率:信息增益除以,分類屬性的信息熵,即衡量分類屬性分類寬度和均勻度的值,以便在決策樹建立時儘量不選擇那種分類較廣的屬性

13.最大熵算法:

14.梯度下降算法:

附上2012年某IT大牛公司面試題:

1.svm算法推導

2.sinx精確值如何求得

3.Fibnacci數列

4.逆波蘭式

附上2013年某IT互聯網公司W筆試題:

1.Apriori算法

2.KMP算法

3.線性分類器和非線性分類器

4.觀點挖掘

5.錯誤校驗碼能否識別多位:奇偶校驗碼,循環冗餘碼,BCD碼,海明碼

6.基數排序的最壞情況下時間複雜度

7.RAIDn能提高磁盤陣列可靠性

8.最大熵算法

9.高斯混合模型

10.邏輯斯蒂迴歸分析

11.梯度下降算法

12.Aprioi算法中的拉格朗日乘子a!=0和a=0分別代表什麼意思?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章