原创 hive解析jsonb

get_json_object(string json_string, string path) 說明: 第一個參數填寫json對象變量,第二個參數使用$表示json變量標識,然後用 . 或 [] 讀取對象或數組;如果輸入的json字

原创 pandas排序

score1=score.sort_values(ascending=False)####降序排列

原创 scikit-learn決策樹

1、scikit-learn決策樹算法類庫介紹 scikit-learn決策樹算法類庫內部實現是使用了調優過的CART樹算法,既可以做分類,又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier,而回

原创 matplotlib批量生成子圖--用於比較分析

################################################# #################0912 畫圖 ##########################################

原创 pandas 根據列的值選取所有行

選取等於某些值的行記錄 用 == df.loc[df[‘column_name’] == some_value] 選取某列是否是某一類型的數值 用 isin df.loc[df[‘column_name’].isin(some_value

原创 評分卡模型-理論

評分卡模型流程 變量分羣/分箱 通常是爲了讓變量的預測力最強 名義變量降低基數 類似決策樹的一種算法 連續變量的分箱 在評分卡建模中,變量分箱(binning)是對連續變量離散化(discretizati

原创 機器學習之奇異值分解SVD及應用於協同過濾推薦和LSA潛在語義分析

隱形語義分析LSA 隱形語義分析(LSA)是一種自然語言處理中用到的方法,又稱爲隱形語義索引 LSI,其通過“矢量語義空間”來提取文檔與詞中的“概念”,進而分析文檔與詞之間的關係。LSA的基本假設是,如果兩個詞多次出現在同一文檔中,則這兩

原创 R做評分卡模型-實戰

樣本表現定義 變量含義 EDA與數據描述 讀入數據 x<-read.csv('/Users/cc/Downloads/評分卡模型——具體舉例/data1.csv',header=T,sep=',',fileEncoding =

原创 集成學習Adaboost算法及python實現及sklearn包的調用

集成方法(ensemble method) 要獲得好的集成,個體學習器應“好而不同”,即個體學習器要有一定的準確性(不能太壞),並且要有多樣性(學習器間具有差異)。 集成方法主要可分爲 個體學習器存在強依賴關係,必須串行生成的序列化方法

原创 複雜網絡特徵與networkx實現------(二)

圖的類型 Graph類是無向圖的基類,無向圖能有自己的屬性或參數,不包含重邊,允許有迴路,節點可以是任何hash的python對象,節點和邊可以保存key/value屬性對。該類的構造函數爲Graph(data=None,**attr

原创 Mac下Sublime Text 2 使用

1. 修改Sublime Text2 默認配置 在菜單欄選擇 Sublime Text->Preferences->Setting-User(注意其中Setting-Default是默認的系統配置, 是不可修改的), 通過修改用戶設置會

原创 pandas列聯表crosstab透視圖pivot_table總結

pandas.pivot_table 透視表 導入數據 pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc=’mean’, fill_va

原创 hive拼接和group_concat

拼接函數 concat(STRING|BINARY a, STRING|BINARY b…) Returns the string or bytes resulting from concatenating the strings or

原创 分位數-hive,sas,r,python求法

爲了方便,總結如下: hive percentile函數和percentile_approx函數,其使用方式爲percentile(col, p)、percentile_approx(col, p),p∈(0,1) 其中percenti

原创 R解析文件--找出常用地址

解析文件–找出常用地址 如何使用R來解析? 文件數據爲三列,電話,地址,訪問時間 要求輸出每個電話的常用地址 找出每個手機號的所有地址 因爲是字符串,不能用大小等於 因爲手機號是有序排列,利用match就可以 x<-read.