爲什麼機器學習模型會失敗？

原創

elgado Panadero

2021-11-24 10:03

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"本文最初發表於 Towards Data Science 博客，經原作者 Delgado Panadero 授權，InfoQ 中文站翻譯並分享。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文通過一個真實的例子，分析了模型選擇不當還是訓練數據噪聲導致了模型性能不佳。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"前言"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在機器學習中，當你建立和訓練一個模型並檢驗其準確性時，一個最常見的問題就是“準確性是我能從數據中得到的最好的，還是能找到一個更好的模型呢？”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外，一旦模型被部署，下一個常見的問題就是“爲什麼模型會失敗？”。有時候，這兩個問題都無法回答，但有時我們可以通過研究模型誤差的統計分佈，找出預處理錯誤、模型偏差，以及數據泄露等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在本教程中，我們將解釋並演示如何統計分析模型結果，以找出示例中錯誤的原因。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"業務案例"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在這個案例中，我們將使用來自 "},{"type":"link","attrs":{"href":"https:\/\/www.drivendata.org\/competitions\/50\/worldbank-poverty-prediction\/","title":"","type":null},"content":[{"type":"text","text":"Driven Data 競賽"}]},{"type":"text","text":"的數據，通過一系列社會經濟變量來預測一個民族是否處於貧困狀態。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這個業務案例的價值不僅在於能夠用機器學習模型來預測貧困狀況，而且還在於通過社會經濟變量對衡量貧困狀態的預測程度，並從特徵上分析原因。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"模型訓練"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"數據由一組九個描述性變量組成，其中四個是類別變量，另外五個是數值變量（但其中一個似乎是一個 id，所以我們將捨棄它）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"import pandas as pd\n\npd.set_option('display.max_columns', None)\ntrain = pd.read_csv('train.csv', index_col='id')\nprint(train)\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"返回結果如下："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"Unnamed: 0 kjkrfgld bpowgknt raksnhjf vwpsxrgk omtioxzz yfmzwkru\nid \n29252 2225 KfoTG zPfZR DtMvg NaN 12.0 -3.0 \n98286 1598 ljBjd THHLT DtMvg esAQH 21.0 -2.0 \n49040 7896 Lsuai zPfZR zeYAm ZCIYy 12.0 -3.0 \n35261 1458 KfoTG mDadf zeYAm ZCIYy 12.0 -1.0 \n98833 1817 KfoTG THHLT DtMvg ARuYG 21.0 -4.0 \n\n tiwrsloh weioazcf poor \nid \n29252 -1.0 0.5 False \n98286 -5.0 -9.5 True \n49040 -5.0 -9.5 True \n35261 -5.0 -9.5 False \n98833 -5.0 -9.5 True \n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"數據分佈可以在下面看到："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/b7\/1b\/b76a2ebc965b32f5bc3ef49de8a3461b.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供。數據集中所有特徵的配對圖，以目標爲顏色。黃色塊代表 False，紫色塊表示 True。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"通過某些預處理（NaN 值插補、縮放、分類編碼等等），我們將對一個支持向量機模型進行訓練（通常在獨熱編碼的高維數據中工作良好）。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"支持向量機"}]},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"from sklearn.pipeline import Pipeline\nfrom sklearn.preprocessing import RobustScaler\nfrom sklearn.neighbors import KNeighborsClassifier\n\nmodel = Pipeline(steps=preprocess+[\n ('scaler', RobustScaler()),\n ('estimator', KNeighborsClassifier(n_neighbors=5))])\n\nmodel.fit(X_train, y_train)\ny_pred = model.predict(X_test)\nprint(classification_report(y_test,y_pred))`\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"返回結果如下："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"precision recall f1-score support\n\n False 0.73 0.77 0.75 891\n True 0.70 0.66 0.68 750\n\n accuracy 0.72 1641\n macro avg 0.72 0.71 0.71 1641\nweighted avg 0.72 0.72 0.72 1641\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"就二元分類問題而言，0.72 的準確率並不高。相比之下，召回率和查準率看起來是平衡的，這使得我們認爲，這個模型不是一個有利於任何類別的先驗偏見。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"測試其他模型"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"想要改進這個模型，下一步就是嘗試其他機器學習模型和超參數，看看我們是否找到任何可以提高性能的配置（甚至只是檢查性能是否保持穩定）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在不同的函數族集中，我們將使用另外兩個模型。KNN 模型，對於學習局部模型的影響是一個很好的選擇，還有梯度提升樹，它也是機器學習中容量最大的模型之一。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"KNN"}]},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"from sklearn.pipeline import Pipeline\nfrom sklearn.preprocessing import RobustScaler\nfrom sklearn.neighbors import KNeighborsClassifier\n\nmodel = Pipeline(steps=preprocess+[\n ('scaler', RobustScaler()),\n ('estimator', KNeighborsClassifier(n_neighbors=5))])\n\nmodel.fit(X_train, y_train)\ny_pred = model.predict(X_test)\nprint(classification_report(y_test,y_pred))\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"返回結果如下："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"precision recall f1-score support\n\n False 0.71 0.74 0.72 891\n True 0.67 0.63 0.65 750\n\n accuracy 0.69 1641\n macro avg 0.69 0.69 0.69 1641\nweighted avg 0.69 0.69 0.69 1641\n"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"梯度提升"}]},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"from sklearn.pipeline import Pipeline\nfrom sklearn.ensemble import GradientBoostingClassifier\n\nmodel = Pipeline(steps=preprocess+[\n ('estimator', \n GradientBoostingClassifier(max_depth=5,\n n_estimators=100))])\n\nmodel.fit(X_train, y_train)\ny_pred = model.predict(X_test)\nprint(classification_report(y_test,y_pred))\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"返回結果如下："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"precision recall f1-score support\n\n False 0.76 0.78 0.77 891\n True 0.73 0.70 0.72 750\n\n accuracy 0.74 1641\n macro avg 0.74 0.74 0.74 1641\nweighted avg 0.74 0.74 0.74 1641\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們可以看到，其他兩個模型的表現似乎都非常相似。這就提出了以下問題："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這就是我們用機器學習模型所能預測的最好結果嗎？"}]}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"模型預測分佈"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"除了檢查性能的一般指標外，分析模型的輸出分佈也很重要。不但要檢查測試數據集的分佈，也要檢查訓練數據集的分佈。這是因爲我們不想看到模型的表現，而是想看看它是否也學會了如何分割訓練數據。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"import matplotlib.pyplot as plt\n\npd.DataFrame(model.predict_proba(X_train))[1].hist()\nplt.show()\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/c5\/43\/c5639b97aaeae96f2e943825c370d343.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供。對訓練集進行評估的模型輸出分佈。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"pd.DataFrame(model.predict_proba(X_test))[1].hist()\nplt.show()\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/95\/cf\/9519c68313285dd9d4c19417061e79cf.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供。對測試集進行評估的模型輸出分佈。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"可見，預測爲 0 的數量具有較高的峯值，這表示存在一個數據子集，模型非常確定它的標籤是 0，除此之外，分佈看起來比較均勻。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果模型知道一定要區分這兩個標籤，分佈會有兩個峯值，一個在 0 附近，另一個在 1 附近。因此，我們可以看到，模型並沒有正確地學習模式來區分數據。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"偏差分佈"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們已經看到，該模型還沒有學會明確地區分這兩個類別，但我們還沒有看到它是否在不自信的情況下也能猜到預測結果，還是一直失敗。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外，重要的是要檢查模型是否更傾向於一類或另一類的失敗。爲檢驗這兩個方面，我們可以繪製預測值與目標值偏差的分佈圖："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"train_proba = model.predict_proba(X_train)[:,1]\npd.DataFrame(train_proba-y_train.astype(int)).hist(bins=50)\nplt.show()\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/6c\/9c\/6c9059c493797934e8e946b96927239c.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供。通過訓練集評估的模型置信度輸出與基準真相的偏差。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"test_proba = model.predict_proba(X_test)[:,1]\npd.DataFrame(test_proba-y_test.astype(int)).hist(bins=50)\nplt.show()\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/e0\/d0\/e05ccaa2ec643899b0c1b12e98636ed0.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供。通過測試集評估的模型置信度輸出與基準真相的偏差。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"從這兩張圖中，我們可以看到，偏差分佈似乎是對稱的，並且以零點爲中心。差距只是在零點，因爲模型從來沒有返回 0 和 1 的準確值，所以我們不必擔心這個問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果模型的誤差來自於訓練數據的統計\/測量噪聲誤差，而不是偏置誤差，則我們會期望偏差分佈遵循高斯分佈。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這一分佈與高斯分佈相似，在零點處有一個較高的峯值，但這個峯值可能是因爲模型預測的零點數量較多（也就是說，模型已經學會了一種模式來區分 0 和 1 類別的子集）。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"驗證正態性"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"由於訓練數據中存在的統計噪聲，我們必須確保模型預測的偏差符合高斯分佈，然後才能證明其偏差。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"import scipy\n\nscipy.stats.normaltest(train_proba-y_train.astype(int))\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"返回結果如下："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"NormaltestResult(statistic=15.602215177113427, pvalue=0.00040928141243470884)\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"當 P-value=0.0004 時，我們可以假設預測與目標的偏差遵循高斯分佈，這樣從訓練數據中的噪聲導致模型誤差的理論是合理的。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"模型可解釋性"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如前所述，這一業務案例的目的不僅僅是要預測模型發生的原因，還包括與之相關的社會經濟變量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"可解釋的模型不僅能預測未見過的數據，還能讓你瞭解特徵如何影響模型（全局可解釋性），以及爲什麼某些預測會如此（局部可解釋性）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"儘管如此，一個模型的可解釋性仍然可以幫助我們理解爲什麼它能做出預測，以及爲什麼它會失敗。從梯度提升模型中，我們可以提取全局可解釋性如下："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"cols = X_train.columns\nvals= dict(model.steps)['estimator'].feature_importances_\n\nplt.figure()\nplt.bar(cols, vals)\nplt.show()\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/fb\/39\/fb57aa520832e5cf859479c5ef020539.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供。梯度提升特徵輸入。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"接下來，我們將進行相同的特徵重要性分析，但是隻對數據的一個子集進行訓練。具體地說，我們將只使用明顯爲零的數據（那些模型之前明確預測爲零的數據）來訓練模型的零類別。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"plain"},"content":[{"type":"text","text":"zero_mask = model.predict_proba(X_train)[:,1]<=0.1\none_mask = y_train==1\nmask = np.logical_or(zero_mask,one_mask)\nX_train = X_train.loc[mask,:]\ny_train = y_train.loc[mask]\nmodel.fit(X_train,y_train)\n"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"現在特徵的重要性是："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/85\/37\/85d68271b890e4fbf871833af1da8237.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供。在模型表現最好的訓練集子樣本上訓練的梯度提升特徵導入。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們可以看到，現在，"},{"type":"codeinline","content":[{"type":"text","text":"tiwrsloh"}]},{"type":"text","text":" 和 "},{"type":"codeinline","content":[{"type":"text","text":"yfmzwkru"}]},{"type":"text","text":" 這兩個變量的重要性增加了，而 "},{"type":"codeinline","content":[{"type":"text","text":"vwpsxrgk"}]},{"type":"text","text":" 的數值卻下降了。這意味着，擁有一個子集的人口顯然不是窮人（類別 0），可以通過這兩個變量從窮人的變量和 "},{"type":"codeinline","content":[{"type":"text","text":"vwpsxrgk"}]},{"type":"text","text":" 在許多情況下可能很重要，但不具備決定性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果我們繪製這兩個特徵的過濾值，我們可以看到："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/e1\/65\/e15f2e6092b4540e6ab5472324fb4165.jpg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"圖由作者提供，對模型明確檢測到非貧困的特徵區域進行分割並表徵。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對於這兩個特徵，模型已經學會了區分兩個類別，同時，對於這些變量的其他值，在整個數據集中，類別 0 和類別 1 是混合的，所以不能明確區分。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們還可以從前面的圖表中找出一個明顯的非貧困人口子集的特徵，即 "},{"type":"codeinline","content":[{"type":"text","text":"tiwrsloh<0"}]},{"type":"text","text":" 和 "},{"type":"codeinline","content":[{"type":"text","text":"yfmzwkru

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

測試左移已經開始影響DevOps的發展？

在軟件開發的早期，該過程通常是開發人員編寫代碼，再將其交給質量保證（QA）進行測試。這種瀑布開發方法可能會導致質量問題和延遲，因爲問題是在週期後期發現的。一、瞭解DevOps和測試左移 DevOps是Development和Operati

2024-04-07 12:48:37

黑盒Prompt優化：提升大模型反饋效果的新思路

隨着人工智能技術的快速發展，大模型在各種應用場景中發揮着越來越重要的作用。然而，如何提升大模型的反饋效果，使其更加準確、高效地爲用戶提供服務，一直是研究者和開發者關注的焦點。本文提出了一種新的思路——黑盒Prompt優化，旨在通過改進輸入提

2024-03-29 00:01:17

分佈式數據庫技術的演進和發展方向

這些年大家都在談分佈式數據庫，各大企業也紛紛開始做數據庫的分佈式改造。那麼，所謂的分佈式數據庫到底是什麼？採用什麼架構？優勢在哪？爲什麼越來越多企業選擇它？分佈式數據庫技術會向什麼方向發展？帶着這些疑問，一探究竟吧！參與文末的話題互動

2024-03-26 11:34:43

利用RAG技術打破大模型幻覺

隨着人工智能技術的不斷進步，大模型在各個領域中發揮着越來越重要的作用。然而，大模型幻覺問題一直是制約其進一步發展的瓶頸。爲了解決這一問題，研究者們不斷探索新的技術和方法。近年來，一種名爲RAG（檢索增強生成）的技術備受關注，它通過結合知識圖

2024-03-21 00:28:34

與 NVIDIA 再次合作、深度參與 GTC，Zilliz 與全球頂尖開發者共迎 AI 變革時刻！

Zilliz 與全球的頂尖開發者齊聚 GTC 2024。近日，備受關注的 NVIDIA GTC 2024 已拉開序幕，來自世界各地的頂尖 AI 開發者齊聚美國加州聖何塞會議中心，共同探索行業未來。作爲去年被 NVIDIA CEO 黃仁

2024-03-19 21:26:53

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

婦女節：打開 AI 視界，成就“她力量”

根據國內招聘平臺獵聘發佈的《2024 女性人才數據洞察報告》，從 2023 年 3 月到 2024 年 2 月，女性在 AIGC 領域的求職人次同比增長了 190.49%。隨着人工智能時代的降臨，女性正以前所未有的姿態，在技術的助力下，蛻變

2024-03-09 01:06:57

AI安全白皮書 | “深度僞造”產業鏈調查以及四類防禦措施

以下內容，摘編自頂象防禦雲業務安全情報中心正在製作的《“深度僞造”視頻識別與防禦白皮書》，對“深度僞造”感興趣的網友，可前往頂象留言，在該白皮書完成後，會爲您免費寄送一份電子版。 “深度僞造”就是創建高度逼真的虛假視頻或虛假錄音，然

2024-03-08 00:45:22

深入學習NumPy庫在數據分析中的應用場景

在數據科學與機器學習領域，NumPy（Numerical Python）是一個經常被提及的重要工具。它是Python語言中一個非常強大的庫，提供了高性能的多維數組對象以及用於處理這些數組的工具。NumPy不僅僅是一個用於數值計算的庫，它還

2024-03-02 00:30:28

2024年首個iOS AI病毒來了！偷人臉照片，轉銀行卡餘額...

2024年2月15日，國外安全公司Group-IB宣佈，發現一個名爲“GoldPickaxe”的惡意軟件。該惡意軟件的iOS版本，誘騙用戶進行人臉識別、提交身份證件，然後基於用戶的人臉信息進行深度僞造。通過深度僞造的虛假的人臉視頻，欺詐分

2024-02-29 00:54:54

生物科學大模型：驅動生物醫學研究的未來

在當今的大數據時代，生物科學大模型已經成爲生命科學領域的前沿研究領域。生物科學大模型是指利用大規模數據和複雜算法來模擬和預測生命現象的過程。通過模擬基因、蛋白質和其他生物分子的相互作用，以及對生物系統的整體行爲進行預測，生物科學大模型可以幫

2024-02-29 00:50:33

數字化浪潮中的守護者：智能軟件測試引領行業革新

在這個被數據和軟件驅動的時代，我們正見證着一個由數字化轉型塑造的全新世界。軟件不僅是這一代信息技術的靈魂，更是數字經濟發展的堅實基石，它是製造強國、網絡強國、數字中國建設的關鍵支撐。隨着行業的蓬勃發展，軟件產業已不僅僅是社會生活和生產各個領

2024-02-24 03:08:08

24小時熱門文章

最新文章

爲什麼機器學習模型會失敗？

最新評論文章