原创 Pandas文件讀取詳解

針對不同格式的文件,pandas有不同的讀取方式,這裏就做一個簡單總結。 文章目錄1. 對於以.csv結尾的文件2. 對於以.txt結尾的文件3. 對於以.tsv結尾的文件 1. 對於以.csv結尾的文件 分爲以下幾種情況: 通

原创 python之join()用法

join():可以將字符串、元組、列表中的元素以指定的字符(分隔符)連接生成一個新的字符串。 # 對字符串進行處理 animal = 'cat dog pig rabbit monkey chicken duck' print('

原创 Hive--sql中的explode()函數和posexplode()函數

實現多列轉多行 先創建一個txt文件(最好是用notepad++,注意將編碼設置爲utf-8)如下: 將該文件放到hive下的一個目錄中(可以自己指定目錄),我是將它放在一個data目錄中 在hive的一個數據庫中創建一個表

原创 實踐(七)

文章目錄1. 計算每個content的CTR2. 使用Spark實現ALS矩陣分解算法1. 提取有效特徵2. 訓練推薦模型3. 使用ALS推薦模型4. 物品推薦5. 推薦效果評估小結3. 使用Spark分析Amazon DataS

原创 Python 類的幾個內置裝飾器—— Staticmethod Classmethod Property

通常情況下,想調用某個類中的方法時,需要先實例化一個對象再進行調用。 而使用@staticmethod或@classmethod,就可以不需要實例化,直接類名.方法名()來調用。 這有利於組織代碼,把某些應該屬於某個類的函數給放到那個類裏

原创 Mysql中的日期及時間相關函數

文章目錄1. 獲取當前的日期及時間函數1.1 獲取當前日期及時間1.2 獲取當前日期1.3 獲取當前時間2. 獲取使其及時間各部分的值3. 計算日期和時間函數4. 參考 在mysql中也常常會碰到一些和時間相關的函數,今天就做個簡

原创 git使用過程及常用命令

文章目錄1. 安裝git後,首先要設置用戶名和郵箱2. 創建本地倉庫(Respository)3. 在倉庫中添加內容4. 查看工作區的狀態5. 版本回退6. 管理修改7. 撤銷修改8. 刪除文件9. 連接github10. 創建遠

原创 Hive--sql中的窗口函數

文章目錄1. 清楚sql的關鍵字順序和執行順序2. 在Hive命令行中可以對函數功能進行查看3. 窗口函數3.1 rank( ),dens_rank( ),row_number()3.2 sum( ),avg( )等4. 參考 今

原创 決策樹規則挖掘

文章目錄1. 導入相應的包並加載數據2. 將數據分爲三類進行處理3. 填補缺失值並截取數據4. 去重5. 變量衍生6. 對dstc_lst變量求distinct個數7. 將變量組合在一起8. 用決策樹進行訓練9. 輸出決策樹圖像,

原创 linux常用命令

文章目錄1.Linux 基本命令1.1 Linux虛擬機的關機和重啓1.2 幫助命令2. 目錄操作命令2.1 目錄切換2.2 目錄查看2.3 目錄操作【增,刪,改,查】2.3.1 創建目錄【增】 mkdir2.3.2 刪除目錄或文

原创 pandas之map(), apply()和applymap()

將一個自定義的函數應用到Pandas的數據結構中可以使用map(), apply()或者applymap(),它們的區別在於應用的對象不同。 Map( ):將函數套用到Series上的每個元素; Apply( ):將函數套用到Da

原创 MySQL必知必會(一)

文章目錄1. 瞭解SQL1.1 什麼是數據庫1.2 什麼是SQL2. MySQL簡介2.1 什麼是MySQL3. 使用MySQL3.1 連接4. 檢索數據4.1 select 語句5. 排序檢索數據5.1 排序數據5.2 按多個列

原创 Xgboost版本對比(原生版與sklearn接口版)

文章目錄1. 分別使用兩個版本對同一個數據集進行測試1.1 數據集的準備1.2 用兩個版本設定相同的參數,對數據集進行訓練1.3 將評估結果打印出來2. 兩個版本的區別參考 看過別人使用Xgboost會發現它是由有兩個版本的,分別

原创 數據分析之pandas-profiling

文章目錄1. 安裝pandas-profiling2. 使用pandas-profiling3. 查看報告4. 參考 最近大家對pandas-profiling的好評很多,主要是它可以只使用一行代碼就能獲取數據的很多信息,於是乎,

原创 drop_duplicates去重詳解

根據數據的不同情況及處理數據的不同需求,通常會分爲兩種情況,一種是去除完全重複的行數據,另一種是去除某幾列重複的行數據,就這兩種情況可用下面的代碼進行處理。 1. 去除完全重複的行數據 data.drop_duplicates(i