機器學習筆記(瞭解)

1、概念

機器學習,就是通過歷史數據找出一定的規律,並使用這些規律對將來不確定的場景進行決策。

機器學習VS數據分析

數據分析,是人爲的從歷史交易數據中找規律,從而決策。
機器學習,是機器使用算法,從歷史行爲數據中找規律,從而決策。

交易數據是少量的,行爲數據是海量的。

數據分析的準確性,主要取決於分析的這個專家的能力高低。
機器學習的準確性,主要取決於歷史數據。

專家再厲害,他的判斷也會帶有片面性和個人主觀性。

所以由數據分析到機器學習,其實就是用數據代替專家的過程。

機器學習VS統計學

統計學,海量數據抽樣分析,得到結論,反向校驗,優化結論。
機器學習,海量數據全量分析,得到結論。

統計學,最早是因爲數據量太大,沒法全量處理,纔不得已用了抽樣的方法。
當有了機器學習,這個問題其實也算被解決了。

離線機器學習VS在線機器學習

大部分機器學習,都是離線的,比如攢一天的數據,每天凌晨批量機器學習一次。
特殊業務場景,需要在線實時機器學習。不斷的通過新數據去刺激模型,電商的推薦一般都是實時的。比如猜你喜歡,總能在你搜索完一個商品後,在後續的瀏覽中就把你剛剛搜索過的類似商品推薦給你。

2、機器學習的應用

購物分析(關聯規則算法)

經典案例:美國的啤酒和紙尿褲,總是同時被購買。商家進行對應的捆綁營銷,提高銷售額。

精準營銷(聚類算法)

將人精確的分爲不同的類,每類進行不同的營銷。

垃圾郵件的識別(樸素貝葉斯算法)

識別垃圾郵件

信用卡欺詐(決策樹算法)

信貸風險識別(還款能力不足和騙貸)

互聯網廣告(ctr預估算法,線性邏輯迴歸)

對用戶的點擊率進行預估,比如搜索,對於展示的每一條結果,都會評價一個用戶點擊的概率,然後按照這個概率的大小進行排列展示,讓最有可能點的排在最前面。

推薦系統(協同過濾算法)

電商的推薦系統,猜你喜歡。通過推薦一些用戶可能買的東西,提高銷量。

自然語言處理

情感分析,通過一個人的評論,分析出這個人的可能性格,從而歸類。
實體識別,提取一篇文章的主幹信息,比如人名地名等,從而嘗試確定一個實體。
等等。。。

圖像識別(深度學習)

人臉識別,還有支付寶那個掃一掃就知道是什麼植物的功能

其他

語音識別
自動駕駛
視頻識別
手勢控制
智慧機器人
等等。。。

3、常用算法分類

3.1、按監督分類

y=f(x)

有監督學習:明確指出數據屬於哪些標籤,再去學習,最終得到模型。

分類算法
迴歸算法

無監督學習:提前不知道要訓練成什麼樣子

聚類算法

半監督學習:也叫強化學習,一開始訓練效果不好,隨着時間慢慢強化模型

3.2、按模型分類

生成模型(萬事好商量)

使用生成模型,最終你給一個入參,模型會給你不同結果的概率。

判別模型(非黑即白)

判別模型,最終模型會給你一個函數,你給他入參,他就給你出參。

4、機器學習解決問題的套路

4.1、確定目標

1、根據業務需求,確定目標
2、收集歷史數據
3、做特徵工程(數據預處理,清理,整合),提取出特徵

最終的模型,能達到多大的效果,絕大部分因素取決於特徵工程做的好不好。所以特徵工程是最重要的一步

4.2、訓練模型

1、定義模型:定義好一個公式,各個參數需要訓練得出
2、定義損失函數:定義最終結果的偏差的大小,最終能量化的知道預測結果和真實結果的差值
3、優化算法:損失函數取最小

4.3、模型評估

1、交叉驗證
2、效果評估

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章