原创 數據清洗之 重複值處理

重複值處理 數據清洗一般先從重複值和缺失值開始處理 重複值一般採取刪除法來處理 但有些重複值不能刪除,例如訂單明細數據或交易明細數據等 import pandas as pd import numpy as np import

原创 數據清洗之 分組對象與apply函數

分組對象與apply函數 函數apply即可用於分組對象,也可以作用於dataframe數據 Groupby.apply(func) 需要注意axis=0和axis=1的區別 np.sum, axis=0 相當於計算每列的總和

原创 數據清洗之 缺失值處理

缺失值處理 缺失值首先需要根據實際情況定義 可以採取直接刪除法 有時候需要使用替換法或者插值法 常用的替換法有均值替換、前向、後向替換和常數替換 import pandas as pd import numpy as np i

原创 數據清洗之 聚合函數使用

聚合函數使用 對分組對象使用agg聚合函數 Groupby.agg(func) 針對不同的變量使用不同的統計方法 import pandas as pd import numpy as np import os os.get

原创 數據清洗之 數據分組方法

數據分組方法 分組計算根據某個或某幾個字段對數據集進行分組,然後運用特點的函數,得到結果 使用groupby方法進行分組計算,得到分組對象GroupBy 語法爲df.groupby(by=) 分組對象GroupBy可以運用描述性

原创 數據清洗之 數據篩選

數據常用篩選方法 在數據中,選擇需要的行或者列 基礎索引方式,就是直接引用 ioc[行索引名稱或者條件,列索引名稱或者標籤] iloc[行索引位置,列索引位置] import pandas as pd import os im

原创 數據清洗之 Excel文件讀寫

Excel文件讀寫 使用read_excel讀取,讀取後的結果爲dataframe格式 讀取excel文件和csv文件參數大致一樣,但要考慮工作表sheet頁 參數較多,可以自行控制,但很多時候使用默認參數 讀取excel時,注

原创 Scrapy導包出錯!導入本地包出錯!親測完美解決

在scrapy中導入自己寫的包時經常會出錯 解決方法:很簡單,將項目文件夾右鍵SourcesRoot一下就OK!\color{red}將項目文件夾右鍵 Sources Root 一下就OK!將項目文件夾右鍵SourcesRoot

原创 你真的瞭解 equals 方法嗎?

equals() & hashCode()i. 首先,簡單介紹一下具體用法ii. 一個案例帶你搞懂 equals() 和 hashCode() equals() & hashCode() i. 首先,簡單介紹一下具體用法 b

原创 數據清洗之 高階函數處理

高階函數處理 在dataframe中使用apply方法,調用自定義函數對數據進行處理 函數apply,注意axis 可以使用astype函數對數據進行轉換 可以使用map函數進行數據轉換 import pandas as pd

原创 Python爬蟲之 動態HTML

動態HTML 動態HTML介紹 JavaScript jQuery Ajax DHTML Python採集動態數據 從JavaScript代碼入手採集 Python第三方庫運行JavaScript,直接採集你在瀏覽器看到的頁面

原创 數據清洗之 字符串數據處理

字符串數據處理 Pandas中提供了字符串的函數,但只能對字符型變量進行使用 通過str方法訪問相關屬性 可以使用字符串的相關方法進行數據處理 函數名稱 說明 contains() 返回表示各str是否含有指定模

原创 Python爬蟲教程中轉站

Because the people who are crazy enough to think that they can change the world, are the ones who do. 爬蟲基礎知識教程 P

原创 數據清洗之 數據整理

數據整理 定義 在數據清洗過程中,很多時候需要將不同的數據整理在一起,方便後續的分析,這個過程也叫數據合併 合併方法 常見的合併方法有堆疊和按主鍵進行合併,堆疊又分爲橫向堆疊和縱向堆疊,按主鍵合併類似於sql裏面的關聯操

原创 數據清洗之 數據修改和查找

數據修改和查找 在數據中,可以使用rename修改列名稱或者行索引名稱 使用loc方法修改數據 使用loc方法查找符合條件的數據 條件於條件之間用&或者|連接,分別代表 ‘且’ 和 ‘或’ 使用between和isin選擇滿足條