台部落dzysunshine

針對不同格式的文件，pandas有不同的讀取方式，這裏就做一個簡單總結。文章目錄1. 對於以.csv結尾的文件2. 對於以.txt結尾的文件3. 對於以.tsv結尾的文件 1. 對於以.csv結尾的文件分爲以下幾種情況：通

2020-06-26 08:03:00

join()：可以將字符串、元組、列表中的元素以指定的字符(分隔符)連接生成一個新的字符串。 # 對字符串進行處理 animal = 'cat dog pig rabbit monkey chicken duck' print('

2020-06-26 08:02:49

實現多列轉多行先創建一個txt文件（最好是用notepad++，注意將編碼設置爲utf-8）如下：將該文件放到hive下的一個目錄中（可以自己指定目錄），我是將它放在一個data目錄中在hive的一個數據庫中創建一個表

2020-06-26 08:02:49

文章目錄1. 計算每個content的CTR2. 使用Spark實現ALS矩陣分解算法1. 提取有效特徵2. 訓練推薦模型3. 使用ALS推薦模型4. 物品推薦5. 推薦效果評估小結3. 使用Spark分析Amazon DataS

2020-06-26 08:02:49

通常情況下，想調用某個類中的方法時，需要先實例化一個對象再進行調用。而使用@staticmethod或@classmethod，就可以不需要實例化，直接類名.方法名()來調用。這有利於組織代碼，把某些應該屬於某個類的函數給放到那個類裏

2020-05-18 02:05:00

文章目錄1. 獲取當前的日期及時間函數1.1 獲取當前日期及時間1.2 獲取當前日期1.3 獲取當前時間2. 獲取使其及時間各部分的值3. 計算日期和時間函數4. 參考在mysql中也常常會碰到一些和時間相關的函數，今天就做個簡

2019-09-15 17:09:51

文章目錄1. 安裝git後，首先要設置用戶名和郵箱2. 創建本地倉庫（Respository）3. 在倉庫中添加內容4. 查看工作區的狀態5. 版本回退6. 管理修改7. 撤銷修改8. 刪除文件9. 連接github10. 創建遠

2019-09-15 17:09:50

文章目錄1. 清楚sql的關鍵字順序和執行順序2. 在Hive命令行中可以對函數功能進行查看3. 窗口函數3.1 rank( )，dens_rank( )，row_number()3.2 sum( )，avg( )等4. 參考今

2019-09-04 17:10:37

文章目錄1. 導入相應的包並加載數據2. 將數據分爲三類進行處理3. 填補缺失值並截取數據4. 去重5. 變量衍生6. 對dstc_lst變量求distinct個數7. 將變量組合在一起8. 用決策樹進行訓練9. 輸出決策樹圖像，

2019-08-28 17:38:41

文章目錄1.Linux 基本命令1.1 Linux虛擬機的關機和重啓1.2 幫助命令2. 目錄操作命令2.1 目錄切換2.2 目錄查看2.3 目錄操作【增，刪，改，查】2.3.1 創建目錄【增】 mkdir2.3.2 刪除目錄或文

2019-08-28 17:38:41

將一個自定義的函數應用到Pandas的數據結構中可以使用map(), apply()或者applymap()，它們的區別在於應用的對象不同。 Map（）：將函數套用到Series上的每個元素； Apply（）：將函數套用到Da

2019-08-28 17:38:41

文章目錄1. 瞭解SQL1.1 什麼是數據庫1.2 什麼是SQL2. MySQL簡介2.1 什麼是MySQL3. 使用MySQL3.1 連接4. 檢索數據4.1 select 語句5. 排序檢索數據5.1 排序數據5.2 按多個列

2019-08-28 17:38:41

文章目錄1. 分別使用兩個版本對同一個數據集進行測試1.1 數據集的準備1.2 用兩個版本設定相同的參數，對數據集進行訓練1.3 將評估結果打印出來2. 兩個版本的區別參考看過別人使用Xgboost會發現它是由有兩個版本的，分別

2019-08-28 17:38:41

文章目錄1. 安裝pandas-profiling2. 使用pandas-profiling3. 查看報告4. 參考最近大家對pandas-profiling的好評很多，主要是它可以只使用一行代碼就能獲取數據的很多信息，於是乎，

2019-08-28 17:38:41

根據數據的不同情況及處理數據的不同需求，通常會分爲兩種情況，一種是去除完全重複的行數據，另一種是去除某幾列重複的行數據，就這兩種情況可用下面的代碼進行處理。 1. 去除完全重複的行數據 data.drop_duplicates(i

2019-08-28 17:38:41