[機器學習筆記] （轉載學習）完整機器學習項目的工作流程

原創

梅森上校

2020-06-21 07:35

完整機器學習項目的工作流程

博客原文：https://ask.julyedu.com/question/7013

1 抽象成數學問題

明確問題是進行機器學習的第一步。機器學習的訓練過程通常都是一件非常耗時的事情，胡亂嘗試時間成本是非常高的。

這裏的抽象成數學問題，指的我們明確我們可以獲得什麼樣的數據，目標是一個分類還是迴歸或者是聚類的問題，如果都不是的話，如果劃歸爲其中的某類問題。

2 獲取數據

數據決定了機器學習結果的上限，而算法只是儘可能逼近這個上限。

數據要有代表性，否則必然會過擬合。

而且對於分類問題，數據偏斜不能過於嚴重，不同類別的數據數量不要有數個數量級的差距。

而且還要對數據的量級有一個評估，多少個樣本，多少個特徵，可以估算出其對內存的消耗程度，判斷訓練過程中內存是否能夠放得下。如果放不下就得考慮改進算法或者使用一些降維的技巧了。如果數據量實在太大，那就要考慮分佈式了。

3 特徵預處理與特徵選擇

良好的數據要能夠提取出良好的特徵才能真正發揮效力。

特徵預處理、數據清洗是很關鍵的步驟，往往能夠使得算法的效果和性能得到顯著提高。歸一化、離散化、因子化、缺失值處理、去除共線性等，數據挖掘過程中很多時間就花在它們上面。這些工作簡單可複製，收益穩定可預期，是機器學習的基礎必備步驟。

篩選出顯著特徵、摒棄非顯著特徵，需要機器學習工程師反覆理解業務。這對很多結果有決定性的影響。特徵選擇好了，非常簡單的算法也能得出良好、穩定的結果。這需要運用特徵有效性分析的相關技術，如相關係數、卡方檢驗、平均互信息、條件熵、後驗概率、邏輯迴歸權重等方法。

4 訓練模型與調優

直到這一步纔用到我們上面說的算法進行訓練。現在很多算法都能夠封裝成黑盒供人使用。但是真正考驗水平的是調整這些算法的（超）參數，使得結果變得更加優良。這需要我們對算法的原理有深入的理解。理解越深入，就越能發現問題的癥結，提出良好的調優方案。

5 模型診斷

如何確定模型調優的方向與思路呢？這就需要對模型進行診斷的技術。

過擬合、欠擬合判斷是模型診斷中至關重要的一步。常見的方法如交叉驗證，繪製學習曲線等。過擬合的基本調優思路是增加數據量，降低模型複雜度。欠擬合的基本調優思路是提高特徵數量和質量，增加模型複雜度。

誤差分析也是機器學習至關重要的步驟。通過觀察誤差樣本，全面分析誤差產生誤差的原因:是參數的問題還是算法選擇的問題，是特徵的問題還是數據本身的問題……

診斷後的模型需要進行調優，調優後的新模型需要重新進行診斷，這是一個反覆迭代不斷逼近的過程，需要不斷地嘗試，進而達到最優狀態。

6 模型融合

一般來說，模型融合後都能使得效果有一定提升。而且效果很好。

工程上，主要提升算法準確度的方法是分別在模型的前端（特徵清洗和預處理，不同的採樣模式）與後端（模型融合）上下功夫。因爲他們比較標準可複製，效果比較穩定。而直接調參的工作不會很多，畢竟大量數據訓練起來太慢了，而且效果難以保證。

7 上線運行

這一部分內容主要跟工程實現的相關性比較大。工程上是結果導向，模型在線上運行的效果直接決定模型的成敗。不單純包括其準確程度、誤差等情況，還包括其運行的速度(時間複雜度)、資源消耗程度（空間複雜度）、穩定性是否可接受。

這些工作流程主要是工程實踐上總結出的一些經驗。並不是每個項目都包含完整的一個流程。這裏的部分只是一個指導性的說明，只有大家自己多實踐，多積累項目經驗，纔會有自己更深刻的認識。

故，基於此，七月在線每一期ML算法班都特此增加特徵工程、模型調優等相關課。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[機器學習筆記] （轉載學習）完整機器學習項目的工作流程

《日本蠟燭圖》讀書筆記 & 技術分析回測

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

[機器學習筆記] 機器學習常見算法總結（更新中）

[統計學筆記] （四）數據分佈的數字特徵

[機器學習筆記] （轉載學習）完整機器學習項目的工作流程

[機器學習筆記] 常用的分類與預測算法

[機器學習筆記] 用Python分析 TED演講數據（更新中）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結