機器學習三要素:模型、策略和算法

機器學習在幹嘛?就是利用已有數據,找到一些合適的數學模型去描述它,然後做一些預測分析,從而優化企業的流程或者提高決策效率。機器學習的核心是:模型、策略和算法

機器學習的目的——模型(Model)

模型就是用來描述客觀世界的數學模型,模型是從數據裏抽象出來的。在進行數據分析時,我們通常手上只有數據,然後看數據找規律,找到的規律就是模型。就跟我們小時候做猜數字遊戲似的,1,4,16...()...256...括號裏面是什麼?只有把這串數抽象成模型,我們才能知道括號裏面是什麼。

再舉個例子,購買產品的顧客到達服務檯的時間是什麼模型?也許是一個泊松分佈。股票價格隨時間的變化是什麼關係?是基於布朗運動的二項隨機分佈...

模型可以是確定的,也可以是隨機的,無所謂,總之用數學可以描述,只要數學可以描述的,就可以進行預測分析。所以,我們的根本目的,是找到一個模型區描述我們已經觀測到的數據。

如何構造模型——策略(Strategy)

例如,我們想用一個正態分佈去描述一組數據,我們就要去構造這個正態分佈,實際上就是預測這個分佈的參數,例如:均值?方差?...但是,我們需要有一系列的標準去選擇合適的模型,模型不是拍腦袋來的。我想用正態分佈,理由呢?我想用二項分佈,憑啥呢?我想讓正態分佈的均值爲0.5,憑什麼0.5比0.2好?所以,需要有一些列標準來證明一個模型比另一個模型好,這就是策略。

不同的策略,對應不同的模型的比較標準和選擇標準。就和選班幹部一樣,選帥的,那就讓吳彥祖當班長;選逗比的,也許選出來的是王寶強;選會唱歌的,沒準是周杰倫...所以,最終確定的模型是什麼,實際上就跟兩件事有關,1)我們的數據是什麼? 2)我們選擇模型的策略是什麼?

說到策略,一般會講到,經驗風險最小化作爲常用的標準。經驗風險最小指的是,用這個模型,用在已有的觀測數據上,基本上是靠譜的。但在已有觀測數據不足的情況下,我們也可以採用結構風險最小化作爲標準。這也是我們在機器學習的時候用到的準則。經驗風險和結構最小化是一個參數優化的過程,我們需要構造一個損失函數來描述經驗風險,損失函數可以理解爲我們預測一個數據錯了給我們帶來的代價。每個人對損失函數的定義都不同,所以優化出來的結果也不同,這也導致最終我們學習到的模型會各種各樣,解決一個問題的方案有多種多樣...

模型的實現——算法(Algorithm)

我們有了數據,有了學習模型的策略,然後就要開始去構造模型了,如果模型的基本形式有了,就是一個優化模型參數的問題了。面對複雜的數學優化問題,我們通常難以通過簡單的求導獲得最終結果,所以就要構造一系列的算法。

我們的目標是讓算法儘量高效,更少的計算機內存代價,更快的運算速度,更有效的參數優化結果...

總結:在進行機器學習時,只要把握住模型、策略和算法這三個要點即可。商業決策的基礎是對客觀環境進行描述,我們用數學模型去描述預測,所以要採取一定的策略選擇合適的模型,而模型的構造本質是數學參數優化問題,在大數據的環境下要構造合適的算法去解決對應的優化問題,這就是整個機器學習的方法構造理念。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章