原创 機器學習雜貨鋪(記錄零碎的概念點)

定理補充描述: 1.Mercer定理說,任何滿足對稱性和正定性的二元函數k(x,y)都能找到 Hilbert space V\mathcal{V}V 和函數ψ\psiψ 使得 k(x,y) = ⟨ψ(x),ψ(y)⟩.\langle

原创 聚類學習

聚類,無監督學習,將無標籤樣本分爲幾個簇,兩個基本問題,性能度量和距離計算 聚類性能度量大致分爲2類,外部指標:將聚類結果與某個“參考模型”進行比較;內部指標:直接考察聚類結果但是不利用任何參考模型。 外部指標JC/FMI/RI等,值

原创 機器學習中的kernel是什麼?(待補充)

近來看到SVM和核化線性降維KPCA,對其中的核函數難以理解,因此去查閱了衆多資料,接下來簡單記錄總結下對kernel的認識。 知乎問題鏈接 參考 kernel是什麼 ?   首先我們先給出kernel的定義:核函數(kernel f

原创 產生式模型和判別式模型區分

近來看到貝葉斯分類器,其中有一個知識點提及產生式模型和判別式模型,查閱了一番資料終於理解透徹了,特此記錄。 產生式模型和判別式模型區分 二者是分類器中常遇到的概念,產生式模型估計它們的聯合概率分佈P(x,y),判別式模型估計條件概率分

原创 貝葉斯分類器

本博客是基於對周志華教授所著的《機器學習》的“第7章 貝葉斯分類器”部分內容的學習筆記,主要目的不在於講解理念,而是偏重梳理流程。 1. 貝葉斯公式 使用貝葉斯分類器,首先我們先闡述下貝葉斯定理: P(C|X)=P(C)P(X∣C)P

原创 最近鄰算法(KNN)

1.算法概述  目前,對於文本分類的研究已經取得了巨大的進展,常用的文本分類算法有最近鄰算法(KNN),支持向量機,人工神經網絡,boosting,隨機森林等。而KNN算法既是最簡單的機器學習算法之一,也是基於實例的學習方法中最基本的

原创 數據預處理中的歸一化和標準化

數據預處理中的歸一化和標準化 由於近來在做kaggle的泰坦尼克號入門比賽,特此記錄日常發現的疑惑。 一, 數據標準化和歸一化的原因 維基百科給出的解釋: 1)歸一化後加快了梯度下降求最優解的速度; 2)歸一化有可能提高精度。以下是我

原创 機器學習模型評估方法與選擇

1. 評估方法  通常我們通過一個“測試集”來測試學習器對新樣本的判別能力,然後用測試集上的“測試誤差”作爲泛化誤差的近似,依此來評估學習器並作出選擇。下面介紹幾種常見的作法 1.1 留出法  “留出法”(hold-out)直接將數據

原创 kaggle泰坦尼克號數據transfrom歸一化記錄

首先本人是菜鳥一個,之前一直只看了些深度學習的理論知識,更多是模型方面的知識,近來在做kaggle上的入門比賽練手,發現數據預處理真的很重要,特此記錄。 以下是對age和fare的歸一化處理代碼 爲什麼要進行歸一詳見:https://

原创 支持向量機SVM(待補充)

1. 間隔與支持向量  對於用於分類的支持向量機,它是個二分類的分類模型。也就是說,給定一個包含正例和反例(正樣本點和負樣本點)的樣本集合,支持向量機的目的就是基於訓練集D在樣本空間找到一個劃分超平面,將不同類別的樣本分開,原則是使正

原创 pandas.get_dummies 的使用及含義

get_dummies 是利用pandas實現one hot encode的方式。 get_dummies參數如下: pandas.get_dummies(data,prefix = None,prefix_sep =’_’,dumm

原创 Boosting系列算法之AdaBoost算法

 接自https://blog.csdn.net/Y_hero/article/details/88381259 ,由上一篇總結我們已經初步瞭解了集成學習以及Boosting的基本原理,不過有幾個Boosting具體的問題沒有詳細解釋

原创 智能問答QA(內附項目實例)(待補充)

1.任務分類 自然語言問題大致分爲7類: 1.事實類問題,適合基於知識圖譜或文本生成問題對應的答案。 2.是非類問題,適合基於知識圖譜或常識知識庫進行推理並生成問題對應的答案。 3.定義類問題,適合基於知識圖譜,詞典或文本生成問題對應

原创 決策樹原理詳解及sklearn代碼實例

1.決策樹 1.1基本流程 決策樹(decsioin tree)是一種常見的機器學習方法,例如西瓜書中的二分類任務,判斷瓜的好壞。決策樹如下: 可以看到此使判斷西瓜是否好壞,則通過色澤,根蒂,敲聲等一些列屬性來得出結果。  一般的,

原创 全連接層計算分解

1*1卷積和全連接層的區別 1.全連接層 全連接層的輸入是一維數組,多維數組需先進行Flatten進行一維化處理,然後連接全連接層。全連接層的每一個結點都與上一層的所有結點相連,用來把前邊提取到的特徵綜合起來。由於其全相連的特性,一般