原创 df.iplot和px如何保存動態圖片

df.iplot和px如何保存動態圖片df.iplotpx df.iplot   dataframe.iplot是一個非常方便的畫圖工具,它可以生成需要動態圖片。而這種動態圖片所佔內存空間較大,往往在下一次打開開發界面時,圖片無法

原创 決策樹詳解--最通俗易懂的解釋

決策樹詳解決策樹的結構根節點內部結點葉節點決策樹算法特徵的劃分選擇信息增益信息增益率基尼係數決策樹剪枝預剪枝後剪枝連續屬性與缺失值連續屬性處理缺失值處理多變量決策樹決策樹算法的“增量學習” 決策樹的結構   一般的,決策樹由一個根

原创 梯度提升與梯度下降

梯度提升與梯度下降梯度是什麼梯度是誰的梯度下降梯度提升總結 梯度是什麼   “梯度提升”與“梯度下降”中的“梯度”是什麼?梯度是損失函數對需要求解的模型參數的導數。梯度方向是參數導數中絕對值最大的方向,因此梯度方向有兩個,一個是梯

原创 XGBoost詳解--原理+模型技巧

XGBoost詳解XGBoost原理學習目標模型介紹模型技巧XGBoost的並行機制XGBoost與GBDT的對比XGBoost的參數 XGBoost原理 學習目標   1、數據:D={(xi,yi)},(∣D∣=n,xi∈Rm,

原创 LightGBM詳解--原理+技巧+參數

LightGBM詳解LightGBM原理GOSSEFB直方圖算法問題一:如何將特徵值映射到bin中?問題二:如何構建直方圖直方圖作差加速leaf-wise分裂策略LightGBM加速的原因LightGBM的優劣點優點劣處Light

原创 CatBoost之解決prediction shift詳細介紹----原理+技巧

CatBoost之解決預測偏移1 Categorical features1.1 TS1.2 Greedy TS1.3 Holdout TS1.4 Leave-one-out TS1.5 Ordered TS2 預測偏移(Pred

原创 特徵選擇之過濾式、包裹式、嵌入式

常見的特徵選擇方法特徵選擇過濾式選擇包裹式選擇嵌入式選擇 特徵選擇   從原始特徵集合中選出對當前學習任務有用的最重要的一些特徵。   特徵選擇的原因:   (1)維度災難:由於屬性過多,導致維數災難,若通過特徵選擇,則能大大減輕

原创 機器學習中的算法性能假設檢驗--最通俗易懂

機器學習中的算法性能假設檢驗一個數據集、單個算法一次留出法----二項檢驗多次重複留出法或交叉驗證法----t檢驗一個數據集、兩個算法----交叉驗證t檢驗一組數據集、多個算法----Friedman檢驗與Nemenyi檢驗Fri

原创 聚類算法的兩個基本問題----性能度量+距離計算

聚類算法的性能度量和距離計算性能度量距離計算 性能度量 1、性能度量的用處 通過某種性能度量來評估聚類結果的好壞; 可作爲聚類過程的優化目標,從而找到更符合要求的聚類結果。 2、性能度量的種類 外部指標:將聚類結果與某個“參

原创 集成學習之個體學習器的多樣性

集成學習中個體學習器的多樣性誤差與分歧多樣性度量多樣性增強 誤差與分歧   對所有樣本x,令p(x)表示樣本的概率密度,則在全樣本上: ∑i=1Twi∫A(hi∣x)p(x)dx=∑i=1Twi∫E(hi∣x)p(x)dx−∫E(

原创 最通俗易懂---多分類學習之OvO、OvR、MvM

多分類學習之OvO、OvR、MvM基本思路OvO(一對一)OvR(一對其餘)MvM(多對多) 基本思路   多分類學習的基本思路是“拆解法”,即將多分類任務拆分成若干個二分類任務求解。   考慮n個類別,C1,C2, C3,…,

原创 VMWare虛擬機安裝Ubuntu20.04詳細過程

VMWare虛擬機安裝Ubuntu20.04詳細過程 1、點擊創建新的虛擬機。 2、一直按下圖操作,點擊下一步。 3、填寫虛擬機名稱、選擇位置。點擊下一步。 4、點擊下一步。 5、根據自身電腦的配置,填寫虛擬機內存。

原创 CatBoost詳解--原理+類別特徵處理的技巧+加速

CatBoost詳解CatBoost簡介CatBoost中處理類別特徵的方法算法實現修正梯度偏差快速評分基於GPU快速學習CatBoost的參數 CatBoost簡介   CatBoost: 基本原理類似於常規的Gradient

原创 機器學習中類別不平衡問題

機器學習中類別不平衡的解決方法欠採樣過採樣再縮放--閾值移動   類別不平衡是指分類任務中不同類別的訓練樣本數目差別很大的情況。   一般而言,分類學習算法有一個共同的基本假設,即不同類別的訓練樣本比例相當,如果不同類別比例樣本數

原创 EM算法----就在身邊

EM算法---身邊常用的算法貝葉斯分類高斯混合聚類半監督學習--生成式方法 EM算法很常用,下面就簡單總結下,使用到EM算法的一些算法。 貝葉斯分類   現實中,會遇到“不完整”的訓練樣本,如某些屬性變量值未知,即存在“未觀測到”