機器學習筆記（瞭解）

原創

2020-06-23 12:05

1、概念

機器學習，就是通過歷史數據找出一定的規律，並使用這些規律對將來不確定的場景進行決策。

機器學習VS數據分析

數據分析，是人爲的從歷史交易數據中找規律，從而決策。
機器學習，是機器使用算法，從歷史行爲數據中找規律，從而決策。

交易數據是少量的，行爲數據是海量的。

數據分析的準確性，主要取決於分析的這個專家的能力高低。
機器學習的準確性，主要取決於歷史數據。

專家再厲害，他的判斷也會帶有片面性和個人主觀性。

所以由數據分析到機器學習，其實就是用數據代替專家的過程。

機器學習VS統計學

統計學，海量數據抽樣分析，得到結論，反向校驗，優化結論。
機器學習，海量數據全量分析，得到結論。

統計學，最早是因爲數據量太大，沒法全量處理，纔不得已用了抽樣的方法。
當有了機器學習，這個問題其實也算被解決了。

離線機器學習VS在線機器學習

大部分機器學習，都是離線的，比如攢一天的數據，每天凌晨批量機器學習一次。
特殊業務場景，需要在線實時機器學習。不斷的通過新數據去刺激模型，電商的推薦一般都是實時的。比如猜你喜歡，總能在你搜索完一個商品後，在後續的瀏覽中就把你剛剛搜索過的類似商品推薦給你。

2、機器學習的應用

購物分析（關聯規則算法）

經典案例：美國的啤酒和紙尿褲，總是同時被購買。商家進行對應的捆綁營銷，提高銷售額。

精準營銷（聚類算法）

將人精確的分爲不同的類，每類進行不同的營銷。

垃圾郵件的識別（樸素貝葉斯算法）

識別垃圾郵件

信用卡欺詐（決策樹算法）

信貸風險識別（還款能力不足和騙貸）

互聯網廣告（ctr預估算法，線性邏輯迴歸）

對用戶的點擊率進行預估，比如搜索，對於展示的每一條結果，都會評價一個用戶點擊的概率，然後按照這個概率的大小進行排列展示，讓最有可能點的排在最前面。

自然語言處理

情感分析，通過一個人的評論，分析出這個人的可能性格，從而歸類。
實體識別，提取一篇文章的主幹信息，比如人名地名等，從而嘗試確定一個實體。
等等。。。

圖像識別（深度學習）

人臉識別，還有支付寶那個掃一掃就知道是什麼植物的功能

其他

語音識別
自動駕駛
視頻識別
手勢控制
智慧機器人
等等。。。

3、常用算法分類

3.1、按監督分類

y=f(x)

有監督學習：明確指出數據屬於哪些標籤，再去學習，最終得到模型。

分類算法
迴歸算法

無監督學習：提前不知道要訓練成什麼樣子

聚類算法

半監督學習：也叫強化學習，一開始訓練效果不好，隨着時間慢慢強化模型

3.2、按模型分類

生成模型（萬事好商量）

使用生成模型，最終你給一個入參，模型會給你不同結果的概率。

判別模型（非黑即白）

判別模型，最終模型會給你一個函數，你給他入參，他就給你出參。

4、機器學習解決問題的套路

4.1、確定目標

1、根據業務需求，確定目標
2、收集歷史數據
3、做特徵工程（數據預處理，清理，整合），提取出特徵

最終的模型，能達到多大的效果，絕大部分因素取決於特徵工程做的好不好。所以特徵工程是最重要的一步

4.2、訓練模型

1、定義模型：定義好一個公式，各個參數需要訓練得出
2、定義損失函數：定義最終結果的偏差的大小，最終能量化的知道預測結果和真實結果的差值
3、優化算法：損失函數取最小

4.3、模型評估

1、交叉驗證
2、效果評估

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習筆記（瞭解）

1、概念

機器學習VS數據分析

機器學習VS統計學

離線機器學習VS在線機器學習

2、機器學習的應用

購物分析（關聯規則算法）

精準營銷（聚類算法）

垃圾郵件的識別（樸素貝葉斯算法）

信用卡欺詐（決策樹算法）

互聯網廣告（ctr預估算法，線性邏輯迴歸）

推薦系統（協同過濾算法）

自然語言處理

圖像識別（深度學習）

其他

3、常用算法分類

3.1、按監督分類

有監督學習：明確指出數據屬於哪些標籤，再去學習，最終得到模型。

無監督學習：提前不知道要訓練成什麼樣子

半監督學習：也叫強化學習，一開始訓練效果不好，隨着時間慢慢強化模型

3.2、按模型分類

生成模型（萬事好商量）

判別模型（非黑即白）

4、機器學習解決問題的套路

4.1、確定目標

4.2、訓練模型

4.3、模型評估

《Python進階》學習筆記

一個docker容器暴露多個端口

leetcode 60 排列序列

Leetcode 3161. 物塊放置查詢

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

LeetCode刪除排序數組中的重複項（Java實現）

java 實現生成短鏈接服務

[記錄] --- safari瀏覽器對於yyyy-MM的坑

excel導出經驗

[轉載] --- Fastjson1.2.68版及以下全版本遠程代碼執行漏洞通告

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結