0基礎利用python數據分析----pandas5數據預處理

原創

2018-09-21 00:48

數據預處理：

當我們拿到一份數據的時候，我們的第一件事就是讀懂數據，第二件事就是開始處理清洗數據。

我們首先導入一份數據，這個數據是泰坦尼克號存活率的相關數據。。上一章我們提到了相關基本類型的操作，這回我寫一下對數據進行預處理的方法。

數據排序：

如果我們想要對一組數據進行排序可以這麼操作：

在上一張圖片中我們拿到的數據默認給dataframe進行了排序，如果我們相同過索引進行降序的操作就調用sort_index的方法，但是要在括號中傳入一個參數，ascending=False 這個的含義就是對該dataframe通過索引進行降序排序，如果ascending=True的話那麼就是通過升序來排序的。同時=True也是默認的排序方法。

如果我們想通過dataframe裏面的值進行排序的話，跟這個方法類似：

在圖中我們調用了sort_values這個方法給數據進行了排序，裏面ascending=False 傳入了這個參數對該數據進行了降序排序，不過在這裏我們多了一個參數，就是"Fare"，這個參數是列的索引，我們是通過這個索引來進行排序。。

同時我們還可以在這個Fare降序排列的基礎上在對其他列進行排序，並保持數據的一致性。

在這裏我們發現，傳參的時候，我們給這兩個列名加了一箇中括號，在pandas中如果對多個列進行操作的時候，就加一個列表把他們包含起來，基本就可以批量操作了。。但是我們寫的時候要注意列表裏面傳參時候的先後順序，誰在前面，就是先給誰排序，後面的會在給第一個參數排序的結果基礎上在進行排序。

對數據進行計算：

很多時候我們拿到的數據都需要對數據進行計算。咱pandas裏面提供了特別方便的計算方法。

首先我們查看一下數據，在這個Age列上有一些事空值，我們如果想過濾掉dataframe裏面有空值的地方可以這麼幹：

在這裏我們通過用pd.isnull的方法先篩選出Age裏面的空值，然後直接判定False，只保留非空的值，在以他作爲索引傳入到read這裏面，我們直接就可以得到乾淨的Age列裏面所有非空的元素。

然後我們在通過這種方式來計算該Age裏面的平均年齡。

當然我們還有更簡便的方法直接用.mean的方法求出該對象中所有非空年齡的平均值。

各等級船票的平均年齡：

在這裏如果我想要做一個數據透視表的話，在這裏我們可以非常簡單的操作，調用.pivot_table的方法第一個index傳入想要篩選列的索引，第二個values傳入的參數是計算列的索引，如果我們後面什麼參數都不填的話，默認的是計算平均值。如果我們想要進行其他操作的話，就這麼幹：

在這裏我們通過存活列的內容，直接用sum的方法計算出這三個等級的船票存活的人數。

也可以通過這種方式來計算出存活率:

通過以上數據咱們可以看出，不同等級的船票存活率也是不一樣的。。

這篇暫時先介紹到這裏，以後如果有什麼更好的案例寫出來分享給大家

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

mac python 包管理工具 pip 的配置 python 包管理工具 pip 的配置

python3 --version Python 3.12.3 brew install [email protected] pip3 config set global.index-url https://pypi.tuna.tsinghua.e

2024-06-10 13:37:38

亂序拼圖驗證的識別並還原 puzzle-captcha（開源）

一、前言亂序拼圖驗證是一種較少見的驗證碼防禦，市面上更多的是拖動滑塊，被完美攻克的有不少，都在行爲軌跡上下足了功夫，本文不討論軌跡模擬範疇，就只針對拼圖還原進行研究。找一個市面比較普及的頂像亂序拼圖進行驗證，它號稱的防禦能力4星，

2021-12-01 00:53:28

【轉載】Python處理csv文件

Python處理csv文件 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel打開查看。由於是純文本，任何編輯器也都可打開。與Excel文件不同，CSV文件中：值沒有類型，所有值都是字符串不能指定字

2020-07-18 14:25:30

Error:field larger than field limit(131072)解決方法

從csv文件讀取某一列的數據時，報錯顯示：Error:field larger than field limit(131072) 通過判斷髮現是因爲文件的行數超過csv限制的行數，所以導致結果既無法在控制檯打印，試着轉到df,存成csv文

2020-07-08 12:39:29

啓動Jupyter時, 遇到 sudo: jupyterhub: command not found 問題的解決方案

最近在學習Jupyter, 但是我發現啓動不了多用戶的JupyterHub 官網的教程: sudo jupyterhub 直接輸入就會導致這樣子的結果後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub

钢琴线与小刀

2020-07-08 12:39:19

Python小記 —— 文件讀寫操作裏read()方法的深究

** 語法 ** 格式：read(size) 在read()方法裏，size表示要從文件中讀取的數據長度，如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。特別需要注意點： read()的讀取機制因訪問文件

2020-07-08 12:33:27

python使用pip指令安裝並引用第三方模塊及注意事項

python裏有內置模塊、自定義模塊還有第三方模塊。內置模塊就是python自帶的模塊了，我們直接引用就可以了，如：import sys。自定義模塊就是按照我們編程者的需求以方便編寫程序和維護代碼的一些“.py文件”，簡單地說，

2020-07-08 12:33:27

python小記 —— sys.argv

sys.argv到底是什麼? sys.argv是運行在黑屏終端運行python文件獲取的參數。即返回一個包含輸入參數的列表。話不多說了看下面，反手就是一堆代碼： import sys print("list長度：",len(sy

2020-07-08 12:33:16

Django Signals 信號

文章目錄Django Signals 信號入門connect Django Signals 信號入門 # receiver 接收者 def my_callback(sender, **kwargs): print sen

2020-07-08 12:31:35

sorted 在python2和3中的區別

文章目錄sorted 在python2和3中的區別 sorted 在python2和3中的區別 python3中取消了cmp參數 python3中的使用方法如下: from functools import cmp_to_key

2020-07-08 12:31:35

python3 排序 sort sorted

排序穩定性和排序複雜度排序保證是穩定的。這意味着當多個記錄具有相同的鍵值時，將保留其原始順序。 >>> data = [('red', 1), ('blue', 1), ('red', 2), ('blue', 2)] >

2020-07-08 12:31:35

python3 super 用法2

class MetaCls(type): def __new__(cls, *args, **kwargs): print("in MetaCls") # return super(Meta

2020-07-08 12:31:35

meta class 和類裝飾器的執行順序

meta class 和類裝飾器的執行順序先執行decorator,後執行metaclass 程序是從上到下執行,先遇到decorator,後遇到class,創建class 調用metaclass. 同理,裝飾器也是先執行上面的

2020-07-08 12:31:35

弱引用 weakref

弱引用 weakref 對對象的弱引用不能保證對象存活：當對像的引用只剩弱引用時， garbage collection 可以銷燬引用並將其內存重用於其他內容。但是，在實際銷燬對象之前，即使沒有強引用，弱引用也一直能返回該對象。

2020-07-08 12:31:35

python神級數據結構namedtuple

python神級數據結構namedtuple from collections import namedtuple 以前就知道有這個東西,也知道如何使用,但是沒覺得有什麼實際用處. 上次看框架源碼,無意間看到這個,發現非常好用.

2020-07-08 12:31:35

24小時熱門文章

最新文章

最新評論文章