1、概念
機器學習,就是通過歷史數據找出一定的規律,並使用這些規律對將來不確定的場景進行決策。
機器學習VS數據分析
數據分析,是人爲的從歷史交易數據中找規律,從而決策。
機器學習,是機器使用算法,從歷史行爲數據中找規律,從而決策。
交易數據是少量的,行爲數據是海量的。
數據分析的準確性,主要取決於分析的這個專家的能力高低。
機器學習的準確性,主要取決於歷史數據。
專家再厲害,他的判斷也會帶有片面性和個人主觀性。
所以由數據分析到機器學習,其實就是用數據代替專家的過程。
機器學習VS統計學
統計學,海量數據抽樣分析,得到結論,反向校驗,優化結論。
機器學習,海量數據全量分析,得到結論。
統計學,最早是因爲數據量太大,沒法全量處理,纔不得已用了抽樣的方法。
當有了機器學習,這個問題其實也算被解決了。
離線機器學習VS在線機器學習
大部分機器學習,都是離線的,比如攢一天的數據,每天凌晨批量機器學習一次。
特殊業務場景,需要在線實時機器學習。不斷的通過新數據去刺激模型,電商的推薦一般都是實時的。比如猜你喜歡,總能在你搜索完一個商品後,在後續的瀏覽中就把你剛剛搜索過的類似商品推薦給你。
2、機器學習的應用
購物分析(關聯規則算法)
經典案例:美國的啤酒和紙尿褲,總是同時被購買。商家進行對應的捆綁營銷,提高銷售額。
精準營銷(聚類算法)
將人精確的分爲不同的類,每類進行不同的營銷。
垃圾郵件的識別(樸素貝葉斯算法)
識別垃圾郵件
信用卡欺詐(決策樹算法)
信貸風險識別(還款能力不足和騙貸)
互聯網廣告(ctr預估算法,線性邏輯迴歸)
對用戶的點擊率進行預估,比如搜索,對於展示的每一條結果,都會評價一個用戶點擊的概率,然後按照這個概率的大小進行排列展示,讓最有可能點的排在最前面。
推薦系統(協同過濾算法)
電商的推薦系統,猜你喜歡。通過推薦一些用戶可能買的東西,提高銷量。
自然語言處理
情感分析,通過一個人的評論,分析出這個人的可能性格,從而歸類。
實體識別,提取一篇文章的主幹信息,比如人名地名等,從而嘗試確定一個實體。
等等。。。
圖像識別(深度學習)
人臉識別,還有支付寶那個掃一掃就知道是什麼植物的功能
其他
語音識別
自動駕駛
視頻識別
手勢控制
智慧機器人
等等。。。
3、常用算法分類
3.1、按監督分類
y=f(x)
有監督學習:明確指出數據屬於哪些標籤,再去學習,最終得到模型。
分類算法
迴歸算法
無監督學習:提前不知道要訓練成什麼樣子
聚類算法
半監督學習:也叫強化學習,一開始訓練效果不好,隨着時間慢慢強化模型
3.2、按模型分類
生成模型(萬事好商量)
使用生成模型,最終你給一個入參,模型會給你不同結果的概率。
判別模型(非黑即白)
判別模型,最終模型會給你一個函數,你給他入參,他就給你出參。
4、機器學習解決問題的套路
4.1、確定目標
1、根據業務需求,確定目標
2、收集歷史數據
3、做特徵工程(數據預處理,清理,整合),提取出特徵
最終的模型,能達到多大的效果,絕大部分因素取決於特徵工程做的好不好。所以特徵工程是最重要的一步
4.2、訓練模型
1、定義模型:定義好一個公式,各個參數需要訓練得出
2、定義損失函數:定義最終結果的偏差的大小,最終能量化的知道預測結果和真實結果的差值
3、優化算法:損失函數取最小
4.3、模型評估
1、交叉驗證
2、效果評估