1.評估指標的侷限性

問題1.準確率的侷限性。

答：準確率的定義：準確率是指分類正確的樣本佔總數樣本個數的比例，

$Accuracy=\frac{n_{correct}}{n_{total}}$

其中 $n_{correct}$ 是被正確分類的樣本個數， $n_{total}$ 爲總樣本個數

如果負樣本佔99%，分類器把所有樣本都分爲負樣本，也可以得到99%的準確率。所以不同的類別的樣本比例非常不均勻時，佔比大的類別玩玩成爲影響準確率的主要願意。爲了解決這個問題，可以採用平均準確率。

問題2.精確率與召回率的權衡。

答：精準率是指分類正確的正樣本個數佔分類器判定爲正樣本的樣本個數的比例

召回率是指分類正確的正樣本個數站真正的正樣本個數的比例。

Precision和Recall是既矛盾有統一的兩個指標，爲了提高Precision的值，分類器儘量在更有把握的時候才把樣本預測爲正樣本，但是此時因爲過於保守，而漏點很多沒有把握的正樣本，導致Recall降低。

F1 score 和ROC 曲線可以綜合的反應一個排序模型的性能。

$F1=\frac{2*precision*recall}{precision+recall}$

問題3.平方根誤差的“意外”

答：RMSE常用來衡量回顧模型的好壞

$RMSE=\sqrt{\frac{\sum_{n}^{i=1}(y_{i}-\hat{y}_{i})}{n}}$

其中 $y_{i}$ 是第i個樣本點的真實值， $\hat{y}_{i}$ 是第i個樣本點的預測值，n是樣本點的個數。

如果存在個別偏離程度非常大的離羣點，即使離羣點非常少，也會使RMSE指標變得很差

三個角度解決：

1，如果這些離羣點是噪聲的話，就在數據預處理的時候去掉。

2.如果不是噪聲，就需要進一步提高模型的預測能力，

3.找一個更好的指標，比如平均絕對百分比誤差

$MAPE=\sum_{i=1}^{n}\left \| \frac{y_{i}-\hat{y}_{i}}{y_{i}} \right \|*\frac{100}{n}$

相比RMSE,MAPE把每個點的誤差進行了歸一化，降低了個別離羣點帶來的絕對誤差。

2.ROC曲線

1.問題：什麼是ROC曲線？

答：ROC曲線是 Receiver operating characteristic curve 的簡稱，中文名爲受試者工作特徵曲線

ROC的縱座標爲假陽性率（FPR），縱座標爲真陽性率（TPR）

$FPR=\frac{FP}{N},TPR=\frac{TP}{N}$

P 是真實的正樣本的數量，N是真是的負樣本的數量，TP是P個正樣本中被分類器預測爲正樣本的個數，FP是N個負樣本中被分類器預測爲正樣本的個數

2.問題：如何繪製ROC曲線？

3.問題：如何計算AUC？

答：AUC指的是ROC曲線下的面積，AUC越大說明分類器越可能把真正的正樣本排在前面，分類性能越好。

4.問題：ROC曲線相比P-R曲線有什麼特點？

答：相比P-R曲線，ROC曲線有一個特點，當正負樣本的分佈發生變化時，ROC曲線的形狀基本不變，而P-R曲線的形狀發生劇烈的變化。

優點：ROC適應的場景更多，比如正負樣本不均勻

3.餘弦距離的應用

1.問題：爲什麼在一些場景中使用餘弦相似度而不是歐氏距離？

答：對於向量A和B，其餘弦相似度定義爲 $cos(A,B)=\frac{A\cdot B}{\left \| A \right \|_{2}\left \| B \right \|_{2}}$ ,即兩個向量夾角的餘弦，關注的是向量之間的角度關係，不關心他們的絕對大小。取值範圍是【-1,1】

總的來說，歐氏距離體現在數值上的絕對差異，而餘弦距離體現在方向上的相對差異。

2.問題：餘弦距離是否是一個嚴格定義的距離？

答：距離的定義：在一個集合中，如果每一對元素均可唯一確定一個實數，使得三條距離公理（正定型、對稱性、三角不等式）成立，則該實數可稱爲這對元素之間的距離

餘弦距離滿足正定型和對稱性，但是不滿足三角不等式，所以他不是嚴格定義的距離

4.A/B測試的陷阱

1.問題：在對模型進行過充分的離線評估後，爲什麼還要進行在線A/B測試？

答：

（1）離線評估無法完全消除模型過擬合的影響

（2）離線評估無法完全還原線上的工程環境

（3）線上系統的某些商業指標在離線評估中無法計算

2.問題：如何進行線上A/B測試？

答：進行用戶分桶，將用戶分成實驗組和對照組，實驗組使用新模型，對照做使用舊模型。

3.問題：如何劃分實驗組和對照組？

採樣方式無偏性，

5.模型評估的方法

1.問題：在模型評估過程中，有哪些主要的驗證方法，他們的優缺點？

答：

（1）Holdout檢驗

將原始樣本隨機劃分成訓練集和驗證集

（2）交叉檢驗

首先將全部樣本劃分成k個大小相等的樣本子集，依次遍歷這k個子集，每次把當前子集作爲驗證集，其餘所有子集作爲訓練集，最後把k次評估指標的平均值作爲最終的估計指標。在實際試驗中k經常取10

（3）自助法

對於樣本集很小時，對於總數爲n的樣本集合，進行n次有放回的隨機抽樣，得到大小爲n的訓練集。n次採樣的過程中，有的樣本會被重複採樣，有的樣本沒有被抽到過，將這些沒有抽出的樣本作爲驗證集。

2.問題：在自助法的採樣過程中，對n個樣本進行n次自主抽樣，當n趨於無窮大時，最終有多少數據從沒被選擇過？

答：一個樣本在抽樣過程中沒被抽到的概率是 $(1-\frac{1}{n})$ .n次就是 $(1-\frac{1}{n})^{n}$ 所以n等於無窮大的時候，極限=0.369

所以大約有36.8%的樣本從來沒被選到過。

6.超參數調優

1.問題：超參數有哪些調優的方法？

答：

（1）網格搜索

通過查找搜素範圍內的所有點來確定最優質的，如果採用較大的搜素範圍以及較小的步長，很大概率會找到最優值。但是耗費計算資源和時間。

（2）隨機搜索

和網格搜索類似，不過不在測試上界和下界之間的所有制，而是隨機選取樣本點。

（3）貝葉斯優化算法

首先根據先驗分佈，假設一個蒐集函數；然後，每次使用新的採樣點來測試目標函數時，利用這個信息來更新目標函數的先驗分佈，最後。算法測試由後驗分佈給出的全局最值最可能出現的位置。但是容易陷入局部最優解。

7.過擬合與欠擬合

1.問題：過擬合與欠擬合具體指什麼？

2.問題：能否說出幾種降低過擬合和欠擬合風險的方法？

答：

降低過擬合

（1）從數據入手，獲取更多的訓練數據

（2）降低模型的複雜度。減少網絡層數、神經元個數

（3）正則化的方法。

（4）集成學習方法。把多個模型集成在一起，來降低單一模型的過擬合風險，如Bagging

降低欠擬合

（1）添加新的特徵。如因子分解、梯度提升決策樹、Deep-crossing

（2）增加模型的複雜度。

（3）減小正則化係數。

《百面》-2.模型評估