原创 hive獲取今天/明天/昨天時間

一、獲取今天時間 select FROM_UNIXTIME(UNIX_TIMESTAMP()) date 二、獲取明天時間 select regexp_replace(substr(date_add(FROM_UNIXTIME(UN

原创 使用pyspark 進行向量計算

最近根據Airbnb在KDD 2018的bestpaper《Real-time Personalization using Embeddings for Search Ranking at Airbnb》做實時推薦的項目。其中在表達用戶短

原创 XGBoost原理及目標函數推導詳解

前言      XGBoost(eXtreme Gradient Boosting)全名叫極端梯度提升,XGBoost是集成學習方法的王牌,在Kaggle及工業界都有廣泛的應用並取得了較好的成績,本文較詳細的介紹了XGBoost的算法原理

原创 spark.DataFrane分佈式轉pandas.dataframe

import pandas as pd def _map_to_pandas(rdds): return [pd.DataFrame(list(rdds))] def topas(df, n_partitions=No

原创 tf.reduce_sum()

reduce_sum應該理解爲按相應的軸壓縮求和,用於降維。通過設置axis參數按相應軸壓縮求和。通過如下實例進行理解。 先設置一個2*3*4的tensor實例x。 x =tf.constant([[[ 1, 2, 3, 4], [ 5

原创 pyspark中dataframe切片

想要對pyspark中dataframe實現pandas.dataframe中iloc的切片功能,發現spark中沒有相關函數可以直接實現該功能,因此自己琢磨了一個方法。 首先創建一個dataframe。 dfs = spark.cr

原创 Linux常用命令大全

最近在和Linux打交道,感覺還不錯。我覺得Linux相比windows比較麻煩的就是很多東西都要用命令來控制,當然,這也是很多人喜歡linux的原因,比較短小但卻功能強大。我將我瞭解到的命令列舉一下,僅供大家參考: 系統信息  arch

原创 feature_selector

今天介紹一個特徵選擇的包:feature_selector,它使用了5種方法進行特徵選擇,1、刪除缺失值過高變量;2、刪除共線性特徵;3、刪除唯一值特徵;4、刪除重要度爲零的特徵;5、刪除低重要度特徵,下面進行介紹。

原创 hive嚴格模式:No partition predicate found for Alias

在hive提數時出現瞭如下報錯:Error while compiling statement: FAILED: SemanticException [Error 10041]: No partition predicate found

原创 構建風控評分卡模型介紹(WOE/KS/ROC)

什麼是評分卡(信貸場景中)以分數的形式來衡量風險機率的一種手段對未來一段時間內違約/逾期/失聯概率的預測通常評分越高越安全根據使用場景分爲反欺詐評分卡、申請評分卡、行爲評分卡、催收評分卡爲什麼要開發評分卡風險控制的一個環節,根據已有數據提

原创 使用sklearn做單機特徵工程

轉自http://www.cnblogs.com/jasonfreak/p/5448385.html目錄1 特徵工程是什麼?2 數據預處理  2.1 無量綱化    2.1.1 標準化    2.1.2 區間縮放法    2.1.3 標準

原创 使用sklearn中roc曲線計算AUC值

ROC曲線指受試者工作特徵曲線/接收器操作特性(receiver operating characteristic,ROC)曲線,是反映靈敏性和特效性連續變量的綜合指標,是用構圖法揭示敏感性和特異性的相互關係,它通過將連續變量設定出多個不

原创 信用申請評分卡建模

本文基於kaggle競賽數據GiveMeSameCredit構建信用申請評分卡即A卡。

原创 pandas 刪除指定行

在處理pandas的DataFrame中,如果想像excel那樣篩選,只要其中的某一行或者幾行,可以使用isin()方法來實現,只需要將需要的行值以列表方式傳入即可,還可傳入字典,進行指定篩選。但是如果我們只想要所有內容中不包含特定行的內