機器學習（Machine Learning）吳恩達

原創

2020-07-07 20:00

機器學習

監督學習：有標籤
迴歸 regression ——連續數值
分類 classification ——離散值
無監督學習：沒有標籤
聚類
雞尾酒會算法

單變量線性迴歸

代價函數 cost ：平方誤差函數 squared error —— 適用於線性迴歸

梯度下降

往往局部最優，但單變量線性迴歸也是全局最優。

多變量線性迴歸

多元梯度下降

特徵縮放

make sure features are on a similar scale
均值歸一化 —— x₀=1，其他約爲0。

學習率 α

出現異常，一般需要調小α

正規方程

計算偏導爲0除，不需要迭代計算，可以一步得到。
不需要特徵縮放。
$\Theta = (X^TX)^{-1}X^Ty$

(X^TX)不可逆

原因：有重複的特徵；特徵太多，多於數據量。
Octave：pinv(X'*X)*X'*y

Octave

CLI 命令行
% 註釋
^ 次冪 .^ 元素次冪 * .*
~= 不等於 false 0；true 1
disp 屏幕打印 sprintf 輸出
format long format short
ones() zeros() rand() randn() eye() 單位矩陣 magic() 幻方矩陣
size() length()
load 加載數據 save 命名變量 保存文件
who 所有變量 whos 詳細信息 clear 清除緩存變量
A(:) 把矩陣A變成一個列向量
log() exp() abs()
max() 每一列的最大值
find()
sum() prod()
floor() 向下取整 ceil() 向上取整
flipud() 垂直翻轉
A' 轉置
pinv() 逆
hist 直方圖
plot() hold on 在同一張圖上畫圖
print -dpng 'name'
figure(n);plot() 同時畫n張圖
subplot() 子圖
xlabel() ylabel() legend() title() axis()
imagesc(A) 將矩陣A可視化 colorbar colormap gray
for i=1:10 XXXX end
while XXXX end
break continue
if XXXX elseif XXXX else XXXX end
function [返回值1, 返回值2] = 函數名(變量1, 變量2)
向量化計算

logistic regression——分類算法

Sigmoid/Logistic function

函數意義：某個輸入情況下，得到的輸出爲1的概率

決策界限

代價函數

梯度下降

高級優化

多元分類

將某些類別合併，與另一個類別進行分類。多次操作。

正則化

過擬合

代價函數

線性迴歸

梯度下降

正規方程

logistic 迴歸

神經網絡學習

解決非線性問題
例子：改變權重θ可以實現 AND OR NOT XNOR 等功能
多元分類

神經網絡參數的反向傳播算法

二元分類：一個輸出單元
多元分類：多個輸出單元

代價函數

反向傳播算法

展開參數

梯度檢測

隨機初始化

權重矩陣隨機初始化，打破對稱性。

組合到一起

選擇神經網絡結構
訓練神經網絡

應用機器學習的建議

評估假設
訓練集、驗證集(模型選擇)、測試集（6:2:2）
偏差(欠擬合)：訓練集誤差大，驗證集誤差也大
方差(過擬合)：訓練集誤差小，但驗證集誤差大
正則化：λ小(高方差、過擬合)，λ大(高偏差、欠擬合)
學習曲線：樣本數量爲橫軸，畫訓練集和驗證集的誤差曲線。

改進方法：

機器學習系統設計

執行優先級：先進行一次簡單快速的實現，畫出學習曲線，再決定優化方向。
誤差分析：交叉驗證集
不對稱性分類的誤差評估：
精確度和召回率的權衡：F值
機器學習數據

支持向量機

優化目標
大間隔分類：C非常大的時候
核函數：相似度函數
使用SVM：使用已有軟件庫。

無監督學習

無監督學習：不帶標籤——聚類算法。
K-Means：遍歷樣本，進行分類；移動中心。
優化目標：距離平均值。
隨機初始化：K<m
選取聚類數量：根據後續目的。

降維

無監督學習。
目標：數據壓縮；可視化。
主成分分析PCA：最小化投影距離和。
預處理：均值歸一化；特徵值縮放。
奇異值分解SVD
應用PCA的建議：只在訓練集上運用；不建議用來防止過擬合；原數據效果不好時再考慮PCA。

異常檢測

選擇特徵；計算參數；對比新數據。
對數據進行變換，使其類似高斯分佈。
多變量高斯分佈。

推薦系統

基於內容的推薦算法
協同過濾算法

大規模機器學習

批梯度下降（原始方法）：遍歷所有數據求和，每次需要所有樣本。
隨機梯度下降：先打亂順序，遍歷過程中優化，每次只考慮一個樣本。
Mini-Batch梯度下降：每次b個樣本。
在線學習。
減少映射與數據並行。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

測試左移已經開始影響DevOps的發展？

在軟件開發的早期，該過程通常是開發人員編寫代碼，再將其交給質量保證（QA）進行測試。這種瀑布開發方法可能會導致質量問題和延遲，因爲問題是在週期後期發現的。一、瞭解DevOps和測試左移 DevOps是Development和Operati

2024-04-07 12:48:37

黑盒Prompt優化：提升大模型反饋效果的新思路

隨着人工智能技術的快速發展，大模型在各種應用場景中發揮着越來越重要的作用。然而，如何提升大模型的反饋效果，使其更加準確、高效地爲用戶提供服務，一直是研究者和開發者關注的焦點。本文提出了一種新的思路——黑盒Prompt優化，旨在通過改進輸入提

2024-03-29 00:01:17

分佈式數據庫技術的演進和發展方向

這些年大家都在談分佈式數據庫，各大企業也紛紛開始做數據庫的分佈式改造。那麼，所謂的分佈式數據庫到底是什麼？採用什麼架構？優勢在哪？爲什麼越來越多企業選擇它？分佈式數據庫技術會向什麼方向發展？帶着這些疑問，一探究竟吧！參與文末的話題互動

2024-03-26 11:34:43

利用RAG技術打破大模型幻覺

隨着人工智能技術的不斷進步，大模型在各個領域中發揮着越來越重要的作用。然而，大模型幻覺問題一直是制約其進一步發展的瓶頸。爲了解決這一問題，研究者們不斷探索新的技術和方法。近年來，一種名爲RAG（檢索增強生成）的技術備受關注，它通過結合知識圖

2024-03-21 00:28:34

與 NVIDIA 再次合作、深度參與 GTC，Zilliz 與全球頂尖開發者共迎 AI 變革時刻！

Zilliz 與全球的頂尖開發者齊聚 GTC 2024。近日，備受關注的 NVIDIA GTC 2024 已拉開序幕，來自世界各地的頂尖 AI 開發者齊聚美國加州聖何塞會議中心，共同探索行業未來。作爲去年被 NVIDIA CEO 黃仁

2024-03-19 21:26:53

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

24小時熱門文章

最新文章

最新評論文章