機器學習三要素：模型、策略和算法

原創

2019-08-28 15:08

機器學習在幹嘛？就是利用已有數據，找到一些合適的數學模型去描述它，然後做一些預測分析，從而優化企業的流程或者提高決策效率。機器學習的核心是：模型、策略和算法

機器學習的目的——模型（Model）

模型就是用來描述客觀世界的數學模型，模型是從數據裏抽象出來的。在進行數據分析時，我們通常手上只有數據，然後看數據找規律，找到的規律就是模型。就跟我們小時候做猜數字遊戲似的，1，4，16...（）...256...括號裏面是什麼？只有把這串數抽象成模型，我們才能知道括號裏面是什麼。

再舉個例子，購買產品的顧客到達服務檯的時間是什麼模型？也許是一個泊松分佈。股票價格隨時間的變化是什麼關係？是基於布朗運動的二項隨機分佈...

模型可以是確定的，也可以是隨機的，無所謂，總之用數學可以描述，只要數學可以描述的，就可以進行預測分析。所以，我們的根本目的，是找到一個模型區描述我們已經觀測到的數據。

如何構造模型——策略（Strategy）

例如，我們想用一個正態分佈去描述一組數據，我們就要去構造這個正態分佈，實際上就是預測這個分佈的參數，例如：均值？方差？...但是，我們需要有一系列的標準去選擇合適的模型，模型不是拍腦袋來的。我想用正態分佈，理由呢？我想用二項分佈，憑啥呢？我想讓正態分佈的均值爲0.5，憑什麼0.5比0.2好？所以，需要有一些列標準來證明一個模型比另一個模型好，這就是策略。

不同的策略，對應不同的模型的比較標準和選擇標準。就和選班幹部一樣，選帥的，那就讓吳彥祖當班長；選逗比的，也許選出來的是王寶強；選會唱歌的，沒準是周杰倫...所以，最終確定的模型是什麼，實際上就跟兩件事有關，1）我們的數據是什麼？ 2）我們選擇模型的策略是什麼？

說到策略，一般會講到，經驗風險最小化作爲常用的標準。經驗風險最小指的是，用這個模型，用在已有的觀測數據上，基本上是靠譜的。但在已有觀測數據不足的情況下，我們也可以採用結構風險最小化作爲標準。這也是我們在機器學習的時候用到的準則。經驗風險和結構最小化是一個參數優化的過程，我們需要構造一個損失函數來描述經驗風險，損失函數可以理解爲我們預測一個數據錯了給我們帶來的代價。每個人對損失函數的定義都不同，所以優化出來的結果也不同，這也導致最終我們學習到的模型會各種各樣，解決一個問題的方案有多種多樣...

模型的實現——算法（Algorithm）

我們有了數據，有了學習模型的策略，然後就要開始去構造模型了，如果模型的基本形式有了，就是一個優化模型參數的問題了。面對複雜的數學優化問題，我們通常難以通過簡單的求導獲得最終結果，所以就要構造一系列的算法。

我們的目標是讓算法儘量高效，更少的計算機內存代價，更快的運算速度，更有效的參數優化結果...

總結：在進行機器學習時，只要把握住模型、策略和算法這三個要點即可。商業決策的基礎是對客觀環境進行描述，我們用數學模型去描述預測，所以要採取一定的策略選擇合適的模型，而模型的構造本質是數學參數優化問題，在大數據的環境下要構造合適的算法去解決對應的優化問題，這就是整個機器學習的方法構造理念。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習三要素：模型、策略和算法

EXCEL中下拉菜單中添加新選項或者刪除選項

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Java中止線程的方式

[轉帖]Oracle Exadata 學習筆記之核心特性Part1

HTTP協議相關文檔

（ID3、C4.5、CART、隨機森林、GBDT）

np.random.seed() 理解

pandas 寫數據到mysql，pymysql.err.InternalError: (1366, "Incorrect string value: .' for column at row **

機器學習三要素：模型、策略和算法

交叉驗證（Cross Validation）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結