台部落yaoqsm

模型融合是指通過分層對模型進行集成，比如以兩層爲例，第一層爲基學習器，使用原始訓練集訓練基學習器，每個基學習器的輸出生成新的特徵，作爲第二層模型的輸入，這樣就生成了新的訓練集；第二層模型在新的訓練集上再進行訓練，從而得到融合的模型。 St

2019-07-02 18:17:44

scp 文件 : /目錄: Permission denied 解決方法：先把需要移動的文件改變權限：777 重新執行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/ 仍然pe

2019-02-02 01:18:05

之前一直在網上搜爲什麼在做評分卡的時候，要把bian變量轉化爲WOE，現在找到一定的原因，記錄一下。先說結論：轉化爲WOE後，WOE值與對應的違約率是呈單調相反的關係。即WOE值越高，其違約率越低。對應的違約率：該箱內，該箱壞樣本佔

2019-01-26 01:02:02

個人的一些理解，不一定對。首先對因變量和單個自變量進行卡方檢驗，計算出因變量與所有自變量的卡方值，選擇p值小於閾值（如0.05，一般小樣本和中等樣本都爲0.05）的自變量進入模型，這時已經確定好那些自變量進入模型，下一步就是選擇哪個zi自

2018-12-08 01:01:56

import pandas as pd import numpy as np def ceshi(df,col,target,max_interval=5): colLevels = set(df[col]) #去重

2018-11-08 03:26:57

在求解機器學習算法的模型參數，即無約束優化問題時，梯度下降（Gradient Descent）是最常採用的方法之一，另一種常用的方法是最小二乘法。這裏就對梯度下降法做一個完整的總結。 1. 梯度　　　　在微積分裏面，對多元函

2018-09-04 04:07:06

安裝python3時候出現權限錯誤，提示環境變量有問題，這時候需要加上在pip install 包名後加--user

2018-09-04 04:07:03

這一篇記錄一下目前比較常用的集成算法GBDT。集成算法從根上來看，主要分爲兩大類--boosting和bagging。先說bagging，他的思想是建立多個弱學習期，最後的結果進行投票決定，而且每個弱學習器的訓練樣本都是在總樣本中隨機抽樣

2018-09-04 04:07:03

卷積神經網絡最讓人迷惑的地方就是在於他的卷積過程，還有其權值共享的原理。下面從初始化序貫模型（一種可以在中間隨意堆疊神經網絡層的結構）開始記錄。卷積神經網絡的目的是應用於圖片識別，最初的成熟的CNN模型是手寫數字識別，銀行很早就開始應用這

2018-09-04 04:07:03

傳統GBDT以CART作爲基分類器，xgboost還支持線性分類器，這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂迴歸（分類問題）或者線性迴歸（迴歸問題）。傳統GBDT在優化時只用到一階導數信息，xgboost則對代價函數進行

2018-09-04 04:07:03

z由於xgboost的算法和GBDT的算法是相似的，只是在對損失函數的優化上邊有不同的地方，不是指最小化損失函數的過程不同，最小化的過程都是用的隨機梯度下降法，不同是在最小化之前，對損失函數的處理上邊。GBDT是直接在原來的損失函數上求

2018-09-04 04:07:03

Tokenizer（分詞器）算法介紹： Tokenization將文本劃分爲獨立個體（通常爲單詞）。 RegexTokenizer基於正則表達式提供更多的劃分選項。默認情況下，參數“pattern”爲劃分文本的分隔符。或者可以指定參數

2018-09-04 04:07:03

C4.5算法可以用R語言的Rweka包中的J48函數來實現，但是此函數參數較多。rpart包是用來實現cart決策樹的。

2018-09-04 04:07:03

納什平衡納什平衡是在GANs中提到的一種對結果衡量的標準，由於生成對抗網絡的結果是接近與0.5的，解釋一下：結果大於0.5表明生成網絡生成的樣本接近於真實樣本，小於0.5則說明樣本是假的，GANs的結果一般是在0.5附近。而其極限的情況

2018-09-04 04:07:03

個人覺得，原因很有可能是master上存在hadoop的臨時文件導致的，解決辦法就是刪除master上的tmp臨時文件和所有日誌文件。然後重新將master的hadoop文件壓縮打包，再傳遞給slaver。然後將slaver上的舊hado

2018-09-04 04:07:02