最近在面試過程中,發現對於AI算法崗位,基本的機器學習、統計學習理論的考察是非常重要的,因此決定先過一遍《統計學習方法》,爲了回顧學過的知識,以問答的形式建此博客,整理學習中的思考,也希望同道中人一起討論學習
統計學習概論
1、在研究統計學習方法的過程中需要哪些步驟?
- 得到一個有限的訓練數據集;
- 確定所有可能的模型假設空間(換句話說就是找幾個你覺得比較合適的模型);
- 確定學習策略(如損失函數、激勵方法等,以便於從衆多模型中選擇一個比較適合的模型);
- 通過學習方法得到最優的模型;
- 利用學習的最優模型對新數據進行預測與分析;
2、統計學習方法主要包括哪幾類?
- 監督學習
- 無監督學習
- 強化學習
- 半監督學習
- 主動學習
3、分類問題和迴歸問題的區別是什麼?
- 分類問題:輸出變量爲離散的;
- 迴歸問題:輸入變量與輸出變量都是連續的;
連續:可以理解爲在空間中取值是線(面);離散:在空間中取值是點
4、監督學習與無監督學習的區別是什麼?
- 監督學習的樣本都是有標註的;無監督學習的樣本是沒有標註的。
5、什麼是強化學習?
- 強化學習一般指系統與環境的連續互動中學習最優行爲策略(感覺就是讓模型自己去學習最優策略,人爲的干預相對少一點,感覺這和GAN模型就一樣了,書中將馬爾科夫決策過程與強化學習結合在一起,可能需要後期學習完馬爾科夫纔能有更深的理解了)
6、什麼是主動學習?
- 主動學習指機器不斷主動給出實例讓教師進行標註,然後利用標註數據學習預測模型,目的是找出對學習最優幫助的實例讓老師標註,減輕標註代價(其實這裏的陳述和GAN也是有相同之處的)
7、概率模型和非概率模型又是什麼?
- 概率模型:其分佈形式多爲,無監督學習中取或,監督學習中,多爲生成模型,主要包括:決策樹、樸素貝葉斯、隱馬爾可夫模型、條件隨機場、概率潛在語義分析、潛在狄利克雷分配、高斯混合模型等。
- 非概率模型:其分佈形式爲,無監督學習中函數形式爲,監督學習中常是判別模型,主要包括:感知機、支持向量機、k近鄰、AdaBoost、k均值、潛在語義分析、神經網絡等。
8、線性模型與非線性模型都包括哪些?
- 線性模型:感知機、線性支持向量機、k近鄰、k均值、潛在語義分析等;
- 非線性模型:核函數支持向量機、AdaBoost、神經網絡等;
9、常見的損失函數都有哪些?
損失函數一般用來度量模型預測錯誤的程度,主要包括如下幾種:
- 0-1損失函數:
- 平方隨時函數:
- 絕對損失函數:
- 對數(似然)損失函數(說實話,我一直沒明白這個”似然“是什麼意思?下面有一段來自wiki的解釋):
- 損失函數越小,模型就越好。
”似然“與”概率“:
- 似然性:用於在已知某些觀測所得到的結果時,對有關事物之性質的參數進行估值。
- 概率:用於在已知一些參數的情況下,預測接下來在觀測上所得到的結果。
10、什麼是過擬合?
- 過擬合一般指在選取模型的時候,使用了過多的參數,導致模型對於已知數據的預測效果非常好,但缺少泛化能力,對未知數據的預測能力很差。(一個好的模型就像一個會學習的同學一樣,他絕對不是單純的做一道題,而是可以通過知識點的學習而解決多道問題)
11、監督學習常見的應用場景有哪些
- 分類問題(Classification):輸出變量取有限個離散值
- 二分類
- 多分類
- 標註問題(Tagging):常用方法有隱馬爾可夫模型、條件隨機場,標註問題在信息抽取、自然語言處理等領域被廣泛應用。
- 迴歸問題(Regression):常用於預測輸入與輸出之間的關係,類似於函數的擬合過程。迴歸問題常被用來解決多領域的問題,比如:市場趨勢預測、產品質量管理、客戶滿意度調差、投資風險分析等。
- 按照輸入變量的個數
- 一元迴歸
- 多元迴歸
- 按照模型的類型
- 線性迴歸
- 非線性迴歸
- 按照輸入變量的個數
12、分類問題中常見的評價指標有哪些?
TP—將正類預測爲正類的數量
TN—將正類預測爲負類的數量
FP—將負類預測爲正類的數量
TN—將負類預測爲負類的數量
- 精確率(Precision):
- 召回率(Recall):
- : 精確率和召回率的調和均值:
13、常見的選擇模型的方法有哪些?
模型選擇的方法:
- 正則化
- 交叉驗證
14、說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法的三要素?
15、通過經驗風險最小化推導極大似然估計?
推薦閱讀:
- 周志華. 機器學習. 北京: 清華大學出版社,2017.