原创 顯著性水平 P值 概念解釋
P是“拒絕原假設時犯錯誤概率”又或者說是“如果你拒絕掉原假設實際上是在冤枉好人的概率”。不管怎麼表達理解上都有點繞,所以你還是看例子吧。比如你做一個假設( null hypothesis):你的女性朋友平均身高2米,輸入你統計的樣本數據後
原创 評分卡模型中的IV和WOE詳解
1.IV的用途 IV的全稱是Information Value,中文意思是信息價值,或者信息量。 我們在用邏輯迴歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如我們有200個候選自變量,通常情況下,不會直接
原创 事實表和緯度表概述
參考鏈接: https://www.cnblogs.com/wufengtinghai/archive/2013/05/04/3060265.html 事實表 在多維數據倉庫中,保存度量值的詳細值或事實的表稱爲“事實表”。事實數據表通
原创 xgboost等Tree-Model 對於特徵是否需要進行one-hot編碼的必要性分析
參考鏈接: https://blog.csdn.net/pipisorry/article/details/61193868 xgboost 對所有的輸入特徵都是當做數值型對待,所以你給定的數據也要是指定的數據類型 對於數據缺失或者稀
原创 異常數據處理——箱型圖分析原理
箱型圖分析原理及Python例程 一、箱型圖分析原理 箱型圖可以通過程序設置一個識別異常值的標準,即大於或小於箱型圖設定的上下界的數值則識別爲異常值,箱型圖如下圖所示: 首先我們定義下上四分位和下四分位: 上四分位我們設爲 U,表示的
原创 評分卡模型之特徵工程中的BadRate單調與特徵分箱之間的聯繫
Bad Rate: 壞樣本率,指的是將特徵進行分箱之後,每個bin下的樣本所統計得到的壞樣本率 bad rate 單調性與不同的特徵場景: 在評分卡模型中,對於比較嚴格的評分模型,會要求連續性變量和有序性的變量在經過分箱後需要保
原创 Tensorflow中RNN以及衍生RNN的源碼
# Copyright 2015 Google Inc. All Rights Reserved. # # Licensed under the Apache License, Version 2.0 (the "License");
原创 推薦系統中的召回率與準確率
準確率,顧名思義,就是準確程度。通過正確數/總數得到。而正確數是什麼,總數是什麼呢?召回率,我們可以理解爲找到的數目與總的需要我們找到的數目的比,那在推薦系統中,什麼是找到的數目,什麼是需要我們總的找到的數目呢?令R(u)表示在根據訓練數
原创 維特比算法的通俗案例解釋
維特比算法本質上就是一個動態規劃DP算法,在知乎上看到了關於一個解釋維特比算法的解釋https://www.zhihu.com/question/20136144, 因此在此特意在轉載下,並加入一些個人對於結合實際案例場景下的算法理解說明
原创 Python Pandas與Numpy中axis參數的二義性
原文:https://blog.csdn.net/wangying19911991/article/details/73928172Pandas與Numpy中一個非常重要的參數:axis.(軸)Stackoverflow問題如下:pyth
原创 JS異步執行機制的理解
說起JS的異步執行機制,如果百度一下,你首先會發現阮一峯的寫過一篇關於異步機制的文章(http://www.ruanyifeng.com/blog/2014/10/event-loop.html),等你津津有味又一頭霧水的看完,然後繼續看
原创 TensorFlow學習筆記2:構建CNN模型
深度學習模型 TensorFlow很適合用來進行大規模的數值計算,其中也包括實現和訓練深度神經網絡模型。下面將介紹TensorFlow中模型的基本組成部分,同時將構建一個CNN模型來對MNIST數據集中的數字手寫體進行識別。 基本設
原创 Tensorflow中的seq2seq 應用
轉載了另一篇博客文章: http://blog.csdn.net/wuzqchom/article/details/76651479, 而有關TensorFlow中 seq2seq的源碼解析可以參考: https://zhuanlan.z
原创 GBDT原理及利用GBDT構造新的特徵GBDT-FFM 點擊率預估方案的Python實現
本帖轉發源自:https://blog.csdn.net/shine19930820/article/details/71713680看了許多GBDT構建特徵的資料整理而成,具體資料見Reference。背景1 Gradient Boos
原创 CRF的模型參數學習問題
當一個CRF條件隨機場模型參數確定後,基於CRF進行狀態序列預測問題,比如給定中文語句觀測序列,來預測整個中文語句當中每個詞的詞性,實質問題就是預測每個句子的隱含詞性狀態問題,在相關條件轉移矩陣等模型參數給定的條件下,利用維特比算法,就能