統計學習方法及監督學習

原創

2020-02-21 18:56

§1.1 統計學習（statistical learning）

又稱統計機器學習，目的是：對數據進行分析或預測。統計學習關於數據的基本假設是同類數據具有一定的統計規律性，可以用概率統計的方法處理。

§1.2 統計學習分類

♧1.2.1 基本分類

統計學習或強化學習一般包括監督學習、無監督學習和強化學習。有時還包括半監督學習和主動學習。

♡1 監督學習

本質是學習輸入到輸出的映射的統計規律。 每個具體的輸入實例是一個特徵，所有特徵組成特徵空間，輸入空間不同於特徵空間時，應將輸入空間映射到特徵空間。
輸入變量和輸出變量爲連續變量的預測問題爲迴歸問題；輸入變量和輸出變量爲離散變量的預測問題爲分類問題；輸入變量和輸出變量爲序列的預測問題爲標註問題。
基本假設：輸入和輸出的隨機變量具有聯合概率分佈。
假設空間（hypothesis space）：由輸入空間到輸出空間的映射集合。假設空間確定代表着學習範圍確定。監督學習的模型分爲概率模型和非概率模型。模型描述出輸入與輸出隨機變量之間的映射關係。

♡2 無監督學習

從無標註的數據中學習預測模型。本質是學習數據中的統計規律或潛在結構。 輸出由輸入的類別、轉換、概率表示。模型對數據進行：聚類、降維、或概率統計。

♡3 強化學習

指智能體在與環境的連續互動中學習最優行爲策略的機器學習，基於馬爾科夫決策過程，智能系統觀測的是與環境互動得到的數據序列。
需要強調的是Q-function和value function的區別：Q-function是基於當前狀態和動作的而value function是基於當前狀態的。
還有就是強化學習的方法：model-based和model-free（包括：優化policy和優化value兩種方法）。
詳細內容

♡4 半監督學習

♡5 主動學習

指機器不斷主動給出實例讓教師進行標註，然後利用標註數據學習預測模型的機器學習問題。
與監督學習的區別在於：主動學習的目標是找出對學習有幫助的數據讓教師標註，不像監督學習，標註的數據是隨機的。

♧1.2.2 按模型分類

♡1 概率模型和非概率模型

♡2 線性模型和非線性模型

♡3 參數化模型和非參數化模型

♧1.2.3 按算法分類

♡ 在線學習（on-line）和批量學習（batch）

利用隨機梯度下降的感知機器學習方法就是在線學習。

♧1.2.4 學習技巧分類

♡1 貝葉斯學習（Bayesaian learning）

♡2 核方法

技巧在於：不顯示地定義這個映射，而是直接定義核函數。

§1.3 統計學方法三要素

模型+方法+算法。按照什麼樣的準則學習或選擇模型（策略），求解最優模型（算法）。

♧模型

♧策略

損失函數：度量模型一次預測的好壞。
風險函數：度量平均意義下模型預測的好壞。
風險函數 = 損失函數的期望
經驗風險：對於訓練數據集的平均損失。經驗風險最小化：
結構風險最小化：

♧算法

要求：全局最優；高效。

§1.4 模型評估與模型選擇

♧訓練誤差與測試誤差

測試誤差：與經驗風險的數學表達式相同只不過，測試誤差將經驗風險的訓練集換成了測試集中的數據。

♧過擬合

§1.5 正則化與交叉驗證

♧正則化

正則化是結構風險策略最小化的實現，所以正則化的一般形式和結構風險相同：

♧交叉驗證

§1.6 泛化能力

♧泛化誤差

所學到的模型的期望風險。

♧泛化誤差的上界

§1.6 判別模型與生成模型

發佈了8 篇原創文章 · 獲贊 2 · 訪問量 347

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

24小時熱門文章

最新文章

最新評論文章