原创 R語言筆記之模型評估度量

1.迴歸模型評估度量 迴歸模型的表現度量方式: RMSE:均方誤差平方根 校正R^2:對 原始R^2的改進 Cp:在訓練集的RSS上加上懲罰 AIC和BIC:基於最大似然值,對參數進行懲罰 2.分類模型評估度量 分類是指對

原创 MaxCompute學習筆記

MaxCompute MapReduce 過程: 以wordcount爲例: a.txt文件如下: a,b,a b,b,a c,a,a 如上所示,有3行 MAP階段: 1.每一行一個map map1 負責 a,b,a map

原创 從今天開始學數據結構(c/c++)之排序

排序算法:快速,冒泡,選擇,直接插入,堆排序,歸併排序 二分查找,hash算法,貪心算法,分治算法,動態規劃算法,隨機劃分算法,回溯算法等,STL,查找算法 #include <iostream> using namespace st

原创 從今天開始學習數據結構(c++/c)---鏈表

先實現這麼多功能,後續再填代碼(本人一菜渣,c式鬧着玩編程如下): #include <iostream> using namespace std; struct Node{ int value; Node *next;

原创 集成算法小結

bagging算法: 自助抽樣樣本, T個弱學習器中選擇投票數最高的(分類) T個弱學習器分別得到的迴歸結果進行算術平均得到的值(迴歸) random forest: bagging算法進化 自助抽樣,弱

原创 數據分析師養成之路之keras篇(sklearn 與keras結合實現調參)

keras 調參(姑且這麼叫) 參考網址: http://www.cnblogs.com/surfzjy/p/6445404.html 話不多說,上代碼: 導包: from keras.datasets import cifar10

原创 數據分析師養成之路之python篇:從頭學習機器學習(決策樹(熵,信息增益,創建樹的代碼實現))

python實現 熵 對上節課的簡單回顧: 實體爲人,他有很多屬性,長相,身高…. 信息: 屬性的特徵 :長相(屬性): 很帥(特徵) 熵: (包含所有的屬性的信息(特徵): 身高:很高,長相:很帥,經濟:很有錢) 對它進行求熵

原创 數據分析師養成之路之python(機器學習-決策樹(完整))

ID3: 關鍵代碼如下:(若要具體代碼,請看: https://blog.csdn.net/lulujiang1996/article/details/81191571) 1.整體信息熵 - 某特徵條件熵 =信息增益 2.

原创 數據分析師養成之路---keras中筆記(上,下采樣,數據增強部分)

上採樣: 有兩類樣本(A,B),A>B數量,若n*B=A(約等於),則B樣本數據變爲:n*B,A樣本數據爲:A def upperSample(df) df.index=range(len(df)) df_A=df[df

原创 數據分析師養成之路之keras:(Modelcheckpoint,交叉驗證等實現篇)

1.數據集的劃分和打亂: 主要學習一下,permutation的使用方法,代碼簡單,這裏不多講解 data=np.load(open('/home/LLwang/桌面/wang/bottle_train.npy','rb')) trai

原创 數據分析師養成之路之python偏:(畫AUC和混淆矩陣)

畫AUC和混淆矩陣 代碼如下: 準備數據,構造模型: from sklearn import datasets import numpy as np from sklearn.model_selection import Strati

原创 數據分析師養成之路之python篇:(keras 中 roc和混淆矩陣)

本篇主要集中實現 roc和混淆矩陣(至於模型,這裏隨便建了一個(知道是個模型就好,當然太low,最後實現的效果也不太好),但,這裏重點是除模型以外的內容) 陳述至此,開始進入正題—請看代碼! 導入所有用到的包 from keras.d

原创 數據分析師養成之路之python篇(從頭學習機器學習之邏輯迴歸)

Logistic迴歸: 要實現分類,如二分類,我們需要得到的結果是 0,1,即y(x)=0,或y(x)=1,要如何實現這樣的效果呢? 單位階躍函數可以幫助我們實現! 單位階躍函數: 自變量大於0時,函數值爲1; 自變量小於0時,函數

原创 數據分析師養成之路--python實戰分類案例2(如何調參,選擇模型等)

對the Breast Cancer Wisconsin dataset進行分類 1.準備數據 -載入數據,pd.read_csv.. -其中的label,有’M’和‘B’兩個值,我們需要標記爲數值型 from sklearn.pr

原创 數據分析師養成之路之python:從頭學習機器學習(KNN_1)

實現kNN分類算法: 快速理解kNN分類算法: 如上圖,綠色圓即爲我們要預測的樣本,K=3時,即距離綠色圓最近的3個樣本(最內圈內) 中,2個紅色三角,1個藍色方框,2>1,所以我們判定綠色圓爲紅色三角