原创 凸函數,凸優化問題,凸二次規劃問題

https://blog.csdn.net/promisejia/article/details/81241201 二次規劃:https://baike.baidu.com/item/%E4%BA%8C%E6%AC%A1%E8%A7%84

原创 拉格朗日乘子法 & KKT條件

目錄 1. 最優化問題三種情況 1.1 無約束條件 1.2 等式約束條件:拉格朗日乘子法 1.3 不等式約束條件:KKT 2. Lagrange對偶函數 2.1 對偶函數與原問題的關係 2.2 Lagrange對偶問題 (1)弱對偶性 (

原创 數學基礎:高斯分佈

1. 最大似然估計(MLE)        概念:給定一堆數據,假如我們知道它是從某一種分佈中隨機取出來的,可是我們並不知道這個分佈具體的參數,即“模型已定,參數未知”。例如,已知分佈是正態分佈,但是不知道均值和方差;或者已知是二項分佈,

原创 高斯過程迴歸(GPR)—— 數學推導

補充知識點:1. 高斯分佈; 2. 條件概率P的值:P = N(u, E) ?? posterior:後驗分佈 GP:連續域上,無限多個高維隨機變量(高斯分佈)所組成的隨機過程。 :高維高斯分佈  GPR可從兩個視角觀察      

原创 特徵工程(3):特徵選擇

        在建立模型之前,我們已經按照特徵構建的方法得到了數據集,但是這樣的數據集可能存在大量的特徵,特徵之間可能存在相關性,也可能存在冗餘特徵,因此需對數據集進行降維處理,以得到最優子集,這個過程叫做特徵選擇。        特徵

原创 特徵工程(3):特徵選擇—信息增益

       信息增益,基於信息熵來計算,它表示信息消除不確定性的程度,可以通過信息增益的大小爲變量排序進行特徵選擇。信息量與概率呈單調遞減關係,概率越小,信息量越大。 1. 基本概念 1.1 信息量        信息量的數學定義如下式

原创 AIC-赤池信息準則、BIC-貝葉斯信息準則

1、AIC準則 2、BIC準則

原创 卡爾曼濾波器算法

(1)HMM:隱變量是離散的 (2)Kalman Filter:又叫 Linear Dynamic Model 或 Linear Gaussian Model             隱變量和觀測變量都是連續的,都是服從高斯分佈的   

原创 HMM

目錄   1. 背景 1.1 數理統計學兩大派 1.2 概率圖 2. HMM 2.1 一個模型,兩個假設,三個問題 2.2 Evaluation問題 (1)前向 (2)後向 2.3 Learning問題  2.4 Decoding問題 

原创 模型參數優化(二):粒子羣優化

1. 基本概念        粒子羣優化,又稱微粒羣算法,來源於對—個簡化社會模型的模擬,主要用於求解優化問題。        粒子羣優化算法是 Kennedy和 Eberhart受人工生命硏究結果的啓發,通過模擬鳥羣覓食過程中的遷徙和羣

原创 R語言筆記-sample()函數

在醫學統計學或者流行病學裏的現場調查、樣本選擇經常會提到一個詞:隨機抽樣。隨機抽樣是爲了保證各比較組之間均衡性的一個很重要的方法。那麼今天介紹的第一個函數就是用於抽樣的函數sample: > x=1:10 > sample(x=x)

原创 模型參數優化(三):模擬退火

1. 基本概念     補充。。。 2. 實現步驟 3. 代碼實現 

原创 知識圖譜

        知識圖譜的概念是由谷歌公司於2012年5月17日首次提出,旨在描述客觀世界的概念、實體、事件及其之間的關係,並作爲構建下一代智能化搜索引擎的核心基礎。通俗地講,知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關係網絡

原创 模型參數優化(四):交叉驗證、網格搜索

1.交叉驗證 1.1 基本概念        交叉驗證的基本思想是將數據集分割成N份,依次使用其中1份作爲測試集,其他N1份整合到一起作爲訓練集,將訓練好的模型用於測試集上,以得到模型好壞的判斷或估計值,可以得到N個這樣的值。交叉驗證通常

原创 模型參數優化(一):遺傳算法

       參數是指算法中的未知數,有的需要人爲指定,比如神經網絡算法中的學習效率,有的是從數據中擬合而來,比如線性迴歸中的係數,如此等等。在使用選定算法進行建模時,設定或得到的參數很可能不是最優或接近最優的,這時需要對參數進行優化以得