原创 顯著性水平 P值 概念解釋

P是“拒絕原假設時犯錯誤概率”又或者說是“如果你拒絕掉原假設實際上是在冤枉好人的概率”。不管怎麼表達理解上都有點繞,所以你還是看例子吧。比如你做一個假設( null hypothesis):你的女性朋友平均身高2米,輸入你統計的樣本數據後

原创 評分卡模型中的IV和WOE詳解

1.IV的用途 IV的全稱是Information Value,中文意思是信息價值,或者信息量。 我們在用邏輯迴歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如我們有200個候選自變量,通常情況下,不會直接

原创 事實表和緯度表概述

參考鏈接: https://www.cnblogs.com/wufengtinghai/archive/2013/05/04/3060265.html   事實表 在多維數據倉庫中,保存度量值的詳細值或事實的表稱爲“事實表”。事實數據表通

原创 xgboost等Tree-Model 對於特徵是否需要進行one-hot編碼的必要性分析

參考鏈接: https://blog.csdn.net/pipisorry/article/details/61193868   xgboost 對所有的輸入特徵都是當做數值型對待,所以你給定的數據也要是指定的數據類型 對於數據缺失或者稀

原创 異常數據處理——箱型圖分析原理

箱型圖分析原理及Python例程  一、箱型圖分析原理 箱型圖可以通過程序設置一個識別異常值的標準,即大於或小於箱型圖設定的上下界的數值則識別爲異常值,箱型圖如下圖所示: 首先我們定義下上四分位和下四分位: 上四分位我們設爲 U,表示的

原创 評分卡模型之特徵工程中的BadRate單調與特徵分箱之間的聯繫

Bad Rate:     壞樣本率,指的是將特徵進行分箱之後,每個bin下的樣本所統計得到的壞樣本率 bad rate 單調性與不同的特徵場景:  在評分卡模型中,對於比較嚴格的評分模型,會要求連續性變量和有序性的變量在經過分箱後需要保

原创 Tensorflow中RNN以及衍生RNN的源碼

# Copyright 2015 Google Inc. All Rights Reserved.  #  # Licensed under the Apache License, Version 2.0 (the "License");

原创 推薦系統中的召回率與準確率

準確率,顧名思義,就是準確程度。通過正確數/總數得到。而正確數是什麼,總數是什麼呢?召回率,我們可以理解爲找到的數目與總的需要我們找到的數目的比,那在推薦系統中,什麼是找到的數目,什麼是需要我們總的找到的數目呢?令R(u)表示在根據訓練數

原创 維特比算法的通俗案例解釋

維特比算法本質上就是一個動態規劃DP算法,在知乎上看到了關於一個解釋維特比算法的解釋https://www.zhihu.com/question/20136144, 因此在此特意在轉載下,並加入一些個人對於結合實際案例場景下的算法理解說明

原创 Python Pandas與Numpy中axis參數的二義性

原文:https://blog.csdn.net/wangying19911991/article/details/73928172Pandas與Numpy中一個非常重要的參數:axis.(軸)Stackoverflow問題如下:pyth

原创 JS異步執行機制的理解

說起JS的異步執行機制,如果百度一下,你首先會發現阮一峯的寫過一篇關於異步機制的文章(http://www.ruanyifeng.com/blog/2014/10/event-loop.html),等你津津有味又一頭霧水的看完,然後繼續看

原创 TensorFlow學習筆記2:構建CNN模型

深度學習模型 TensorFlow很適合用來進行大規模的數值計算,其中也包括實現和訓練深度神經網絡模型。下面將介紹TensorFlow中模型的基本組成部分,同時將構建一個CNN模型來對MNIST數據集中的數字手寫體進行識別。 基本設

原创 Tensorflow中的seq2seq 應用

轉載了另一篇博客文章: http://blog.csdn.net/wuzqchom/article/details/76651479, 而有關TensorFlow中 seq2seq的源碼解析可以參考: https://zhuanlan.z

原创 GBDT原理及利用GBDT構造新的特徵GBDT-FFM 點擊率預估方案的Python實現

本帖轉發源自:https://blog.csdn.net/shine19930820/article/details/71713680看了許多GBDT構建特徵的資料整理而成,具體資料見Reference。背景1 Gradient Boos

原创 CRF的模型參數學習問題

當一個CRF條件隨機場模型參數確定後,基於CRF進行狀態序列預測問題,比如給定中文語句觀測序列,來預測整個中文語句當中每個詞的詞性,實質問題就是預測每個句子的隱含詞性狀態問題,在相關條件轉移矩陣等模型參數給定的條件下,利用維特比算法,就能