台部落SofaSofa数据科学社区

原创【教程】SHAP值解釋xgboost模型的特徵重要性-SofaSofa

利用SHAP解釋Xgboost模型 Xgboost相對於線性模型在進行預測時往往有更好的精度，但是同時也失去了線性模型的可解釋性。所以Xgboost通常被認爲是黑箱模型。 2017年，Lundberg和Lee的論文提出了SHAP值這一

2019-05-11 23:19:27

115

原创 GMM與EM算法的Python實現

GMM與EM算法的Python實現高斯混合模型(GMM)是一種常用的聚類模型，通常我們利用最大期望算法(EM)對高斯混合模型中的參數進行估計。本教程中，我們自己動手一步步實現高斯混合模型。完整代碼在第4節。預計學習用時：30分鐘

2019-05-01 01:05:41

152

原创機器學習、數據挖掘、算法崗位面試題庫、面經

DS/ML類面試在本質上大同小異，只是側重點不同。DS/ML與傳統的軟件開發崗和數據工程崗位在面試中最大的區別就是，DS/ML更多涉及機器學習、概率統計、數值優化、高數線代、AB Test等多方面的知識。機器學習、數據挖掘、算法崗位面試

2018-12-23 18:00:11

3

原创 K-Means算法、非負矩陣分解(NMF)與圖像壓縮(Python)

K-Means算法是最基礎的聚類算法、也是最常用的機器學習算法之一。本教程中，我們利用K-Means對圖像中的像素點進行聚類，然後用每個像素所在的簇的中心點來代替每個像素的真實值，從而達到圖像壓縮的目的。非負矩陣分解(Non-nega

2018-10-04 02:53:07

44

原创谷歌內部機器學習術語表

本術語表中列出了一般的機器學習術語和 TensorFlow 專用術語的定義。完整版請點擊這裏機器學習術語詞典。 A A/B 測試 (A/B testing) 一種統計方法，用於將兩種或多種技術進行比較，通常是將當前採用的技術與新技

2018-09-17 07:40:32

原创關於過擬合的種種問題

爲什麼過擬合不好？無監督式學習也會過擬合嗎？決策樹模型有什麼特點以及如何防止過擬合？無監督學習（比如K Means）裏怎麼加正則項來防止過擬合隨機森林會發生過擬合（overfitting）嗎？訓練集加入噪聲防止over fitting還是

2018-08-30 07:28:55

原创關於xgboost，你需要知道的問題

xgboost是怎麼做到regularization的？ xgboost中的決策樹的複雜度是怎麼定義的？對於xgboost，還需要做很多特徵工程嗎 xgboost如何調參 xgboost能夠做迴歸預測嗎 xgboost那麼好，那線性模型

2018-08-30 07:28:51

4

原创【數據實戰】足球運動員身價估計

本次數據項目的主題是足球運動員身價估計。每個足球運動員在轉會市場都有各自的價碼。本次數據練習的目的是根據球員的各項信息和能力值來預測該球員的市場價值。標杆模型提供了兩個思路：第一個是找到很少數的幾個關鍵特徵然後訓練模型，比如四個變量的決

2018-08-30 07:28:48

原创關於PCA的那些事

PCA是機器學習中常用的方法、也是個經常被提及的術語。關於PCA的那些事，你不得不知。爲什麼PCA被稱作非監督式學習？在使用PCA降維時，有哪些坑？ PCA的目標函數是什麼？ PCA降維之前爲什麼要先標準化或者歸

2018-08-30 07:28:48

2

原创【形狀識別：是方還是圓】CNN還是邏輯迴歸？

SofaSofa的練習項目【形狀識別：是方還是圓】，主要針對於數據新人、尤其圖像處理、識別方面的新手進行自我練習、自我提高，與大家切磋。在同學們的催促下，我們終於上傳了標杆模型。標杆模型1：邏輯迴歸模型模型2：基於keras的CNN完整代

2018-08-30 07:25:52

原创關於numpy的種種

python numpy裏array和matrix的區別？二維numpy.array轉爲一維的numpy.array或者list怎麼對2維的numpy array取整？numpy裏矩陣乘法matmul，@和dot的區別？sklearn算法

2018-08-30 07:25:52

原创利用樸素貝葉斯對名字進行性別預測

樸素貝葉斯一直是文本分類的“好手”，不妨來看看怎麼用它來判斷名字的性別。請點擊閱讀利用樸素貝葉斯對名字進行性別預測。

2018-08-30 07:25:52

4

原创機器學習中關於“調參”的種種問題

參數與超參的區別是什麼？調參中的GridSearch是什麼意思？xgboost怎麼調參？利用交叉驗證調參後還需要用完整的數據集重新訓練嗎？隨機森林如何調參？glmnet中的參數lambda.min.ratio什麼意思

2018-08-30 07:25:52

2

原创機器學習之中文處理：文言文還是白話文

機器讀中文2：“辨古識今” 比賽概述本比賽爲個人練習賽，主要針對於數據新人、尤其中文文本處理方面的新手進行自我練習、自我提高，與大家切磋。練習賽時限：2017-11-01 至 2019-11-01 任務類型：自然語言處理、二元分類

2018-08-30 07:25:48

3

原创關於機器學習、數據科學麪試的準備

最近很多人私信小編，問起“機器學習”“數據科學”這一類崗位面試如何準備的問題。小編是很樂於和大家分享的，但是，前提是你真心想走這條路的。有些同學問，“您好，我想轉行，做機器學習這塊，我該怎麼準備面試呢？”小編也竟然無語凝噎，因爲您的問題更

2018-08-30 07:25:45

2