原创 Kaggle : Display Advertising Challenge( ctr 預估 )

Display Advertising Challenge  ---------2015/1/12 一:背景 CriteoLabs 2014年7月份在kaggle上發起了一次關於展示廣告點擊率的預估比賽。CriteoLabs是第三方展示

原创 餘額支付風控 -- 風控評分模型篇

餘額支付風控                          風控評分模型篇            by dylanfan at 2015-2-11 一 概述 餘額支付的風險識別模型分爲兩類:(1)盜號交易識別風險 和 (2)盜卡交易識

原创 模型集成方法: Stacked generation

Stacked generation分爲兩個階段   1. Level-0 generalizers Level-0 generalizers階段生成Level-1 generalizers階段的輸入數據。 我們有K個簡單的分類模型,然

原创 Loan default predictor(貸款違約預測)

Loan default predictor  (貸款違約預測) --- dylan at  2014-3-16   一:背景 Kaggle發佈了一個涉及貸款違約預測的比賽,時間週期2個月(2014/01/17 -- 2014/03/14

原创 FaceBook: Text Tag Recommendation

Text Tag Recommendation  --------2013/12/20 一: 背景 Kaggle上 facebook招聘比賽III。任務要求是給定文本中抽取關鍵詞,這裏稱作tag吧。 訓練集是Stack Exchange 

原创 kaggle : StumbleUpon Evergreen Classification Challenge

StumbleUpon Evergreen Classification Challenge ------2013/08/16 -- 2013/10/31 一 背景 Build a classifier to categorize web

原创 LIME:模型預測結果是否值得信任?

花了一天時間對LIME論文:http://arxiv.org/pdf/1602.04938v1.pdf 仔細閱讀和代碼閱讀,實驗,大體理解了作者的設計思路。 背景: 我們在建立模型的時候,經常會思考我們的模型是不是夠穩定,會不會出

原创 重讀網絡挖掘中community detection 文章--Fast unfolding of communities in large networks

community detection 是源於複雜網絡領域的關於網絡節點的社團劃分的工作。 複雜網絡學科大量的實證研究發現很多網絡存在聚簇效應,比如常見的社交網絡。正所謂人以羣分,物以類聚。 community detection 方法分

原创 連續特徵離散化和歸一化

RT,尤其在logistic regression上,需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處,還可以引入非線性特性,也可以很方便的做cross-feature。 連續特徵離散化處理有什麼好的方法, 有時候爲什麼不

原创 刪除字符串中的“b”和“ac”

刪除字符串中的“b”和“ac”,需要滿足如下的條件:字符串只能遍歷一次;不能夠實用額外的空間。例如:acbac ==> "";aaac ==> aa;ababac ==> aa;bbbbd ==> d   #include <iostre

原创 給定長度爲n的整數數列:a0,a1,..,an-1,以及整數S。這個數列會有連續的子序列的整數總和大於S的,求這些數列中,最小的長度。

給定長度爲n的整數數列:a0,a1,..,an-1,以及整數S。這個數列會有連續的子序列的整數總和大於S的,求這些數列中,最小的長度。 #include <iostream> using namespace std; int min

原创 OWL-QN算法: 求解L1正則優化

    在機器學習模型中,比如監督學習中,我們設計模型,我們重要的的工作是如何求解這個模型的最優值,通常是如何求救損失函數的最小值。比如logistic regression 中我們求解的是的loss function就是負log 最大似

原创 二分類問題特徵選擇的常用兩個方法

二分類問題特徵選擇的常用兩個方法              by dylanfan  at  2014-6-25   (1)互信息。值越大,相關性越強   w是特徵,t是目標。反應的是特徵出現和不出現對目標值的影響。     (2) 卡

原创 求子序列的長度

子序列的定義:對於一個序列a=a[1],a[2],......a[n],則非空序列a'=a[p1],a[p2]......a[pm]爲a的一個子序列,其中1<=p1<p2<.....<pm<=n。 例如:4,14,2,3和14,1,2

原创 從今天開始,把之前做的項目整理髮到博客上

從今天開始,把之前做的項目整理髮到博客上!寫點機器學習工程上的一些方法和流程。