原创 【機器學習】SVM之Hinge Loss,從LR到SVM,SVM核函數進一步理解
Hinge Loss 解釋 SVM 求解使通過建立二次規劃原始問題,引入拉格朗日乘子法,然後轉換成對偶的形式去求解,這是一種理論非常充實的解法。這裏換一種角度來思考,在機器學習領域,一般的做法是經驗風險最小化 (empirical ris
原创 【機器學習】SVM之迴歸模型
review 先回顧一下在基本線性可分情況下的SVM模型: 分類svm模型中要讓訓練集中的各個樣本點儘量遠離自己類別一側的支持向量。 其實迴歸模型也沿用了最大間隔分類器的思想。 誤差函數 對於迴歸模型,優化目標函數和分類模型保持一致,依
原创 【機器學習】SVM核方法
Kernel Trick 在 SVM 中引入核方法便可使得 SVM 變爲非線性分類器,給定非線性可分數據集 ,如下圖所示,此時找不到一個分類平面來將數據分開,核方法可以將數據投影到新空間,使得投影后的數據線性可分,下圖給出一個 的映射,
原创 【機器學習】線性迴歸之梯度下降、多元線性迴歸概述
線性迴歸是一種監督學習方法. 對每個樣本來說: Hypothesis: 即: 其中, 爲預測值, 爲樣本的第i個特徵,且; 爲該特徵下的權重,bias偏差。線性迴歸就是要在已有的樣本特徵和標籤下學習特徵權重,從而在待測樣本中應用
原创 【機器學習】線性迴歸之Normal Equation(矩陣求導與線性代數視角)
Normal Equation 之前我們用梯度下降來求解線性迴歸問題的最優參數,除此之外我們還可以用正規方程法(Normal Equation)來求解其最優參數。 Normal Equation方法的推導有兩種方式 矩陣求導(matrix
原创 【機器學習】線性迴歸之概率解釋及局部加權線性迴歸
Probabilistic interpretation 我們應該想這樣一個問題:當我們討論迴歸問題時,我們爲什麼要最小化平方損失函數?在CS229的課程中,吳恩達教授給我們做了詳細的概率解釋。現總結如下: 對單個樣本來說: 其中
原创 【機器學習】數據挖掘算法——關聯規則(二),挖掘過程,Aprioir算法
關聯規則挖掘的原理和過程 從關聯規則(一)的分析中可知,關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則:它的支持度和置信度大於最低閾值(minsup,minconf),這個閾值是由用戶指定的。根據 support=(X,Y).coun
原创 【機器學習】數據挖掘算法——關聯規則(一),相關概念,評價指標
綜述: 數據挖掘是指以某種方式分析數據源,從中發現一些潛在的有用的信息,所以數據挖掘又稱作知識發現,而關聯規則挖掘則是數據挖掘中的一個很重要的課題,顧名思義,它是從數據背後發現事物之間可能存在的關聯或者聯繫。 關聯規則的目的在於在一個
原创 【機器學習】主題模型
主題模型(LDA)(一)–通俗理解與簡單應用 主題模型(LDA)(二)-公式推導 主題模型-LDA淺析(簡短清楚) 通俗理解LDA主題模型(超詳細) 數學之美(上一篇的參考文章) plsa和LDA的區別–七月在線
原创 【機器學習】數據挖掘算法——關聯規則(三),FP-growth算法
前言 上一篇文章介紹了用來挖掘發現強關聯規則的Apriori算法。同時也知道了Apriori算法在實現過程中由於需要頻繁的掃描數據集導致效率較低。 FP-growth算法基於Apriori構建,但採用了高級的數據結構減少掃描次
原创 【推薦算法入門】推薦系統之推薦算法概述
1. 什麼是推薦算法 推薦算法最早在1992年就提出來了,但是火起來實際上是最近這些年的事情,因爲互聯網的爆發,有了更大的數據量可以供我們使用,推薦算法纔有了很大的用武之地。 最開始,所以我們在網上找資料,都是進yahoo,然後分門別類的
原创 【機器學習】偏差-方差分解Bias-variance Decomposition
偏差-方差分解(Bias-Variance Decomposition) 偏差-方差分解(Bias-Variance Decomposition)是統計學派看待模型複雜度的觀點。Bias-variance分解是機器學習中一種重要的分析技術
原创 【機器學習】貝葉斯整理
簡述樸素貝葉斯算法原理和工作流程 事件A和B同時發生的概率爲在A發生的情況下發生B或者在B發生的情況下發生A。 所以有: 對於給出的待分類項,求解在此項出現的條件下各個目標類別出現的概率,哪個最大,就認爲此待分類項屬於哪個類別。 工作
原创 【線性代數】理解矩陣變換及行列式的本質
參考:行列式的本質是什麼? 這篇文章的結構是: 線性變換的幾何直觀 實現線性變換的矩陣 行列式 一、線性變換的幾何直觀 線性變換的幾何直觀有三個要點: 變換前是直線的,變換後依然是直線 直線比例保持不變 變換前是原點
原创 【機器學習】LR的分佈式(並行化)實現
邏輯迴歸(Logistic Regression,簡稱LR)是機器學習中十分常用的一種分類算法,在互聯網領域得到了廣泛的應用,無論是在廣告系統中進行CTR預估,推薦系統中的預估轉換率,反垃圾系統中的識別垃圾內容……都可以看到它的身影。LR