原创 pandas-數據過濾

目錄1.df[condition]2.df.query() 導入數據 1.df[condition] 使用condition條件來進行過濾,實際上是通過判斷True和False,返回布爾數組True的值來進行過濾。 2.df

原创 一篇文章帶你快速搞懂數據倉庫的流程

– 來,我們直接對照這張流程圖用大白話講解: OLTP層 用來存放原始數據的數據庫,不同的數據可能來自於不同的數據庫。比如CRM系統的數據來自於oracle數據庫,ERP系統的數據來自於mysql數據庫。 這一層的數據可能是包

原创 win10下修改jupyter notebook默認路徑

1、找到anaconda navigator,打開。 2、選擇open terminal。 3、輸入jupyter --config-dir查看路徑,切換到該路徑下。 4、輸入jupyter notebook --gener

原创 linux常用命令

常用命令1.磁盤管理cd(change directory)pwd(print working directory)ls(list)2.文件管理touch 創建空文件file 查看文件類型mkdir(make directory)

原创 Linux下安裝jdk

目錄1.上傳jdk到linux 前面寫過幾篇文章,如何配置Linux環境,修改靜態ip並使用CRT連接Linux。可以回顧: 最新VMware安裝教程 最新CentOS 6.7安裝教程 Linux修改靜態ip,CRT連接 接下來在

原创 pandas-分組聚合

目錄1.groupby分組1.1 分組的方式2.agg聚合2.1 dataframe.agg方法2.2 分組對象的agg方法 1.groupby分組 通過groupby方法對series或者dataframe對象進行分組,該方法

原创 pandas-數據轉換

目錄1.數據映射(apply、map、applymap)1.1 series(apply、map)1.1.1 apply1.1.2 map1.2 dataframe(apply、applymap)1.2.1 apply1.2.2

原创 Linux下非ROOT用戶安裝MySQL(rpm方式),修改utf8

目錄1.查看並卸載2.包上傳到linux3.安裝server和client4.啓動服務並連接mysql5.遠程連接配置6.修改數據庫默認編碼和執行引擎 實際工作中不可能在root用戶底下操作mysql,這裏是把mysql安裝在普通

原创 pandas-數據加載(read_csv)數據寫入(to_csv)常用參數解析

目錄1.CSV與TSV2.read_csv()2.1 header2.2 names2.3 index_col2.3 usecol3.to_csv()3.1 sep3.2 header3.3 na_rep3.4 index3.5

原创 pandas-series索引

目錄1.Series概念2.創建方式3.索引3.1 標籤索引與位置索引3.2 索引返回的是拷貝,切片返回的是視圖3.3 總結 1.Series概念 Series可以理解爲是一個帶標籤的一維數組,可以是任何數據類型。 Series

原创 pandas-數據連接合並

目錄1.concat連接1.1 axis、ignore_index參數1.2 join參數1.3 keys參數1.4 join_axes參數2.append追加3.merge合併3.1 how參數3.2 on參數3.3 left_

原创 pandas-數據清洗

目錄1. 缺失值處理1.1 判斷缺失值1.2 丟棄缺失值1.3 填充缺失值1.4 describe()2. 重複值處理2.1 發現重複值2.2 刪除重複值 1. 缺失值處理 1.1 判斷缺失值 1、info() 2、isnull