原创 模型融合---Stacking&Blending

模型融合是指通過分層對模型進行集成,比如以兩層爲例,第一層爲基學習器,使用原始訓練集訓練基學習器,每個基學習器的輸出生成新的特徵,作爲第二層模型的輸入,這樣就生成了新的訓練集;第二層模型在新的訓練集上再進行訓練,從而得到融合的模型。 St

原创 ubuntu權限問題

scp 文件 : /目錄: Permission denied    解決方法:先把需要移動的文件改變權限:777    重新執行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/  仍然pe

原创 WOE轉化的意義

之前一直在網上搜爲什麼在做評分卡的時候,要把bian變量轉化爲WOE,現在找到一定的原因,記錄一下。 先說結論:轉化爲WOE後,WOE值與對應的違約率是呈單調相反的關係。 即WOE值越高,其違約率越低。 對應的違約率:該箱內,該箱壞樣本佔

原创 對ctree(條件推斷決策樹)的個人理解

個人的一些理解,不一定對。首先對因變量和單個自變量進行卡方檢驗,計算出因變量與所有自變量的卡方值,選擇p值小於閾值(如0.05,一般小樣本和中等樣本都爲0.05)的自變量進入模型,這時已經確定好那些自變量進入模型,下一步就是選擇哪個zi自

原创 卡方分箱--基於四格表方法

import pandas as pd import numpy as np def ceshi(df,col,target,max_interval=5): colLevels = set(df[col]) #去重

原创 對梯度下降原理的理解

在求解機器學習算法的模型參數,即無約束優化問題時,梯度下降(Gradient Descent)是最常採用的方法之一,另一種常用的方法是最小二乘法。這裏就對梯度下降法做一個完整的總結。 1. 梯度     在微積分裏面,對多元函

原创 記錄python錯誤

安裝python3時候出現權限錯誤,提示環境變量有問題,這時候需要加上在pip install    包名   後加--user

原创 GBDT

這一篇記錄一下目前比較常用的集成算法GBDT。集成算法從根上來看,主要分爲兩大類--boosting和bagging。先說bagging,他的思想是建立多個弱學習期,最後的結果進行投票決定,而且每個弱學習器的訓練樣本都是在總樣本中隨機抽樣

原创 CNN卷積神經網絡原理記錄

卷積神經網絡最讓人迷惑的地方就是在於他的卷積過程,還有其權值共享的原理。下面從初始化序貫模型(一種可以在中間隨意堆疊神經網絡層的結構)開始記錄。卷積神經網絡的目的是應用於圖片識別,最初的成熟的CNN模型是手寫數字識別,銀行很早就開始應用這

原创 xgboost相比傳統gbdt有何不同?xgboost爲什麼快?xgboost如何支持並行?

傳統GBDT以CART作爲基分類器,xgboost還支持線性分類器,這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂迴歸(分類問題)或者線性迴歸(迴歸問題)。傳統GBDT在優化時只用到一階導數信息,xgboost則對代價函數進行

原创 對xgboost原理的理解

z由於xgboost的算法和GBDT的算法是相似的,只是在對損失函數的優化上邊有不同的地方, 不是指最小化損失函數的過程不同,最小化的過程都是用的隨機梯度下降法,不同是在最小化之前,對損失函數的處理上邊。GBDT是直接在原來的損失函數上求

原创 spark mllib 的數據預處理

Tokenizer(分詞器) 算法介紹: Tokenization將文本劃分爲獨立個體(通常爲單詞)。 RegexTokenizer基於正則表達式提供更多的劃分選項。默認情況下,參數“pattern”爲劃分文本的分隔符。或者可以指定參數

原创 決策樹

C4.5算法可以用R語言的Rweka包中的J48函數來實現,但是此函數參數較多。rpart包是用來實現cart決策樹的。

原创 GANs生成對抗網絡知識點初探

納什平衡 納什平衡是在GANs中提到的一種對結果衡量的標準,由於生成對抗網絡的結果是接近與0.5的,解釋一下:結果大於0.5表明生成網絡生成的樣本接近於真實樣本,小於0.5則說明樣本是假的,GANs的結果一般是在0.5附近。而其極限的情況

原创 解決hadoop集羣中有一個slaver的datanode啓動失敗

個人覺得,原因很有可能是master上存在hadoop的臨時文件導致的,解決辦法就是刪除master上的tmp臨時文件和所有日誌文件。然後重新將master的hadoop文件壓縮打包,再傳遞給slaver。然後將slaver上的舊hado