原创 集成學習和Boosting原理總結

接自https://blog.csdn.net/Y_hero/article/details/88376573 bagging與隨機森林。 1.集成學習  集成學習(ensemble learing)通過構建並結合多個學習器來完成

原创 pandas中的Series和DataFrame的區別與轉化

1.series數據類型 1. Series相當於數組numpy.array類似 Series 它是有索引,如果我們未指定索引,則是以數字自動生成。 obj=Series([4,7,-5,3]) print obj #輸出結果如

原创 支持向量機SVM淺析(待補充)

先發一張個人對svm的主要概念圖: 1. 幾何間隔與支持向量  對於用於分類的支持向量機,它是個二分類的分類模型。也就是說,給定一個包含正例和反例(正樣本點和負樣本點)的樣本集合,支持向量機的目的就是基於訓練集D在樣本空間找到一

原创 raspberry install pandas with python 3.6

berryconda berryconda 是一款爲樹莓派定製基於 conda python 發行版的開源軟件。我們可以使用它來實現類似 Miniconda 和 Anaconda 的功能。 berryconda 提供了 pytho

原创 LDA——從概率的角度去看文學

是自生自滅,還是概率使然。 如果說上帝有數不盡的骰子,而人類現有的語言文字只是部分骰子的骰面(畢竟可能有其他外星文明,對應地球的語言只是部分骰子),當上帝添加新的骰子或者骰面的時候,新的語言文字就誕生了。 那麼文章是不是就可以理

原创 LIBSVM 下載使用及實戰

1. LIBSVM 下載 libsvm It makes everything automatic–from data scaling to parameter selection. 基於java的Weka和基於python的sc

原创 Cross entropy loss function in DNN RNN

        我將無我,不負年華 1. What is Cross entropy loss function 2. How to use Cross entropy in DNN 3. How to use Cross ent

原创 Word2vec和embedding 非底層算法原理講解

網上關於二者的信息真的是多如牛毛,參差不齊。 本文不對算法細節進行講解推導,不從零開始講二者含義,主要記錄些學習中出現的問題。 建議先看完基礎知識再瀏覽,歡迎大家留言指出錯誤或留下你的疑問。 先貼幾個不錯的鏈接 word2vec源碼

原创 one-hot到word2vec到bert的進化史(待完善)

本文還是一篇不講具體原理細節的博客,只寫一些3者之間的區別優劣問題,建議先搞懂原理再看,有疑問或者有新的見解,歡迎留言提出。 word2vec和embedding梳理 1. 從one-hot開始 優點:一是解決了分類器不好處理離散數據

原创 Deep learning深度學習概述

一、Deep Learning的基本思想 假設我們有一個系統S,它有n層(S1,…Sn),它的輸入是I,輸出是O,形象地表示爲: I =>S1=>S2=>…..=>Sn => O,如果輸出O等於輸入I,即輸入I經過這個系統變化之

原创 高斯徑向基函數(RBF)神經網絡

高斯徑向基函數(RBF)神經網絡 牛頓插值法-知乎 泰勒公式 徑向基函數-wiki 徑向基網絡之bp訓練 RBF網絡逼近能力及其算法 線性/非線性,使用”多項式“逼近非線性,通過調節超參數來改善多項式參數進一步擬合真實非線性。 1.徑

原创 KPCA算法淺析

二者都是在PCA和LDA的基礎上加入了核函數,從線性變化到非線性變化,因此建議先搞懂什麼是PCA、LDA和核函數。 KPCA 我們先來看一個實際問題,圖b是樣本在二維空間中的分佈,稱爲本真二維結構,然後以S形曲面嵌入到三維空間中,形成

原创 深入理解PCA(待補充)

t-sne 參考鏈接 PCA理解第一層境界:最大方差投影 正如PCA的名字一樣, 你要找到主成分所在方向, 那麼這個主成分所在方向是如何來的呢? 其實是希望你找到一個垂直的新的座標系, 然後投影過去, 這裏有兩個問題。 第一問題:

原创 PCA的劣勢分析

PCA原理剖析 矩陣的秩 特徵向量 特徵值是什麼? 此篇博客主要分析PCA有什麼劣勢以及產生的原因,對PCA還不清楚的可以結合上面兩個博客從多角度深入瞭解PCA。 劣勢一,在對數據完全無知的情況下,PCA變換並不能得到較好的保留數據信

原创 機器學習降維算法對比分析(待補充)

主要的方法有屬性(特徵)選擇,線性映射和非線性映射方法三大類。 一、屬性(特徵)選擇 缺失值比率:如果數據集的缺失值太多,我們可以用這種方法減少變量數。 低方差濾波:這個方法可以從數據集中識別和刪除常量變量,方差小的變量對目標變量影響