前一篇文章提到了序列,可以理解爲Excel裏沒有列名的一列數據,那麼Excel裏的由行列組成的表數據是如何對應到Python中的呢？就是今天要說的數據框：DataFrame。

它是由一組數據和一對索引（行索引和列索引）組成的二維數據結構，可以看成Excel裏的表格，與Series不同的是，DataFrame可以有多行/列數據。

1．建

首先要導入pandas模塊，簡寫爲pd。

In [1]:import pandas as pd

從列表中創建DataFrame

# 從列表中創建
list1 = [2,5,8,10]
df_l = pd.DataFrame(list1)
df_l

結果：

這裏傳入的是一個單一的列表，得到的是帶有行列索引的一列數據，行索引用index表示，就是這裏最前面豎着的那一列[0,1,2,3]，相當於Excel裏的第一列，列索引用columns表示，相當於Excel裏的第一行，由於沒有指定索引，因此都是默認從0開始遞增的索引，這裏橫排第一行就是列索引，除去行列索引，中間的區域爲values：值區域。

從字典中創建

# 從字典中創建
dict1 = {"name":["Tony","Nancy","Judy","Cindy"],
        "age":[16,17,18,15],
        "sex":["male","female","female","female"]}
df_d = pd.DataFrame(dict1)
df_d

結果：

image

從字典中創建DataFrame，每個鍵就默認爲columns。

從嵌套列表中創建

嵌套列表顧名思義，就是列表中還有列表，這種方式也可以創建數據框，同字典不同的是，字典創建的數據框鍵值對是一列一列的，嵌套列表創建的數據框是一行一行的。

# 嵌套列表創建
list2 = [["Jane",15,101],["David",18,103],["Peter",16,102]]
df1 = pd.DataFrame(list2)
df1

結果：

image

以上創建數據框都沒有指定索引，下面我們來指定行列索引，columns指定列索引，index指定行索引。

# 指定行列索引
list2 = [["Jane",15,101],["David",18,103],["Peter",16,102]]
df1 = pd.DataFrame(list2,index = [1,2,3],columns = ["name","age","num"])
df1

結果：

image

2.查

查是指對數據框行/列數據的訪問

2.1 選擇行

Excel裏沒有專門的選擇行的方法，就是直接用鼠標選擇。在Pandas裏要選擇一行或幾行數據，可以用loc或iloc方法，區別在於，loc方法傳入的是行所在索引的名稱，而iloc方法傳入的是行的絕對位置。

選擇一行

選擇df1數據框的第二行，可以用df1.loc[2]，這裏的2是第二行對應的行索引的名稱。

# 訪問df1第二行
df1.loc[2]

結果：

image

若用iloc方法，則這樣寫df1.iloc[1]，別忘了一直說的索引是從0開始遞增，所以第二行的絕對位置是1，iloc[1]表示取第二行的值。

df1.iloc[1]

結果同loc是一樣的

選擇幾行

要選擇幾行，可以用iloc選擇絕對位置並切片的方法。

# 選擇前2行
df1.iloc[:2]

結果：

image

若選擇的不是連續的幾行，就不用切片，iloc方法傳入選擇行的絕對位置，loc傳入索引名稱，並用列表括起來。

# 選擇第一行和第三行
df1.iloc[[0,2]]
df1.loc[[1,3]]

結果：

image.png

2.2 選擇列

在Excel裏選擇列也是鼠標直接操作，除非是進行條件篩選，這個就是後話了，pandas裏選擇列的方式很簡單，直接按列名選擇即可，在數據框後面用中括號加上要選擇的列名，或者數據框後面.列名，二者任選。

數據框[列名]
數據框.列名

選擇一列

df.列名等價於 Df[列名]

# 選擇name列
df1["name"]
df1.name

結果：

image.png

注意到這樣選擇列得到的是序列而非數據框，如果想要得到數據框，要再加中括號。

image.png

選擇幾列

同行選擇一樣，選擇幾列的時候，要用中括號括起來。

# 選擇1、3列
df1[["name","num"]]

結果：

image.png

2.2 行列同時選擇定位

Loc定位

df.loc[行索引，列索引]可以定位一個數據.

# loc定位
df1.loc[[1,3],["name","age"]]

結果：

image.png

[1,3]是行索引，是一個列表值，表示獲取1、3行標籤所在的行，[“name”,”age”]是列索引，表示獲取name,age列索引所在的列。

還可以用切片獲取全部的行

# 獲取name num列的全部行
df1.loc[:,["name","num"]]

結果：

image.png

左邊的冒號表示獲取全部的行，右邊的列表值表示獲取name列和num列。

同理獲取全部列

# 獲取2\3行全部列
df1.loc[[2,3],:]

結果：

image.png

：號不僅可以用來表示全部的行/列，還可以用在行/列中，進行切片。

# 獲取1~3行全部列
df1.loc[1:3,:]

結果：

image.png

iloc定位

按照元素的絕對位置定位，行列索引都是從0開始。對比loc方法，loc裏的1,3是行索引的名稱，而iloc裏的0,2是1、3這兩個行索引所處的位置，同樣地，name和age列的位置是0,1.

# loc定位
df1.loc[[1,3],["name","age"]]
# iloc
df1.iloc[[0,2],[0,1]] # iloc方法

image.png

iloc也可以切片。

# 獲取name num列的全部行
df1.loc[:,["name","num"]]
df1.iloc[:,[0,2]] #iloc方法

結果：

image.png

# 獲取2\3行全部列
df1.loc[[2,3],:]
df1.iloc[[1,2],:] #iloc方法

結果：

image.png

# 獲取1~3行全部列
df1.loc[1:3,:]
df1.iloc[0:3,:] # iloc方法

結果：

image.png

Iloc切片是左閉右開的，也就是右區間時不包含的，0:3的意思是取第1行至第四行的值，不包括第四行，那實際上就只取到了第三行。Iloc切片的規則同Series切片是一樣的。

3.增

3.1 插入行

同序列一樣，如果想要在DataFrame裏增加行記錄，做法是建立一個新的DataFrame，然後將兩個DataFrame縱向合併起來，同樣用到append方法，

# 追加行
df2 = pd.DataFrame({"name":["Jane"],"age":[16],"sex":["female"]})
df_d.append(df2,ignore_index = True)

結果：

image.png

除了append方法可以進行表的縱向合併以達到插入行記錄的目的外，還有concat方法。Concat是基於pandas的方法，用列表框起來，表示將兩個數據框縱向拼接。這裏我們可以看到索引還是原來數據框的索引，可以重置索引，設置ignore_index = True,就新生成一個索引了，append裏也可以用。

pd.concat([df_d,df2],ignore_index = True)

結果是一樣的：

image.png

3.2 插入列

直接對新增的列賦值，新增的列在數據框末尾。新增score列，用列表賦值，這裏df1[“score”]不能替換成df1.score。

# 插入列
df1["score"] = [85,58,99]
df1

結果：

image.png

Insert方法，可以指定新增列的位置。

df1.insert(1,"score2",[77,78,79])
df1

結果：

image.png

insert方法的第一個參數是要插入列的位置，1表示將新列插入在第二列，第二個參數是列名，這裏是score2，第三個參數是值。

3.刪

3.1 刪除行

Drop方法，index指定行，index = 1的意思是刪除行索引名稱爲1的這一行。

# 刪除行
df1.drop(index = 1)

結果：

image.png

還可以不寫index，寫axis = 0，表示按行刪除。

df1.drop(1,axis = 0)

結果是一樣的

3.2 刪除列

對應刪除行的操作，可以傳入columns指定列

# 刪除列
df1.drop(columns = "num")

結果：

image.png

也可以不傳入columns，但要傳入axis = 1參數。

df1.drop("num",axis = 1)

4.改

數據框修改實際上就是數據框中數值的替換，用replace方法，replace(A,B)，表示把A替換成B。選中age列，將age列中15的值替換爲25，輸出df1，並設置inplace = True參數，表示立即更新。

# 一對一替換
df1["age"].replace(15,25,inplace = True)
df1

結果：

image.png

上個例子是將1個值替換成另一個值，那如果是要把18和16替換成26呢？把16和18用列表框起來，用26去替換他們。

# 多對一替換
df1["age"].replace([18,16],26,inplace = True)
df1

結果：

image.png

再比如要將num列的101，102,103分別對應替換成1001,1002和1003呢？這時字典就派上用場了。

# 多對多替換
df1["num"].replace({101:1001,102:1002,103:1003},inplace = True)
df1

結果：

image.png

猜你喜歡：

Python數據結構：神奇的序列

你真的瞭解參數估計和假設檢驗嗎？

高手都是怎樣用圖表的：用圖表說話

@ 作者：可樂
@ 公衆號/知乎專欄/頭條/簡書：可樂的數據分析之路
@ 加微信（data_cola）備註：進羣，拉你進可樂的數據分析交流羣，數據分析知識總結，不定期行業經驗分享

Python學習筆記（7）：數據框

1．建

從列表中創建DataFrame

從字典中創建

從嵌套列表中創建

2.查

2.1 選擇行

選擇一行

選擇幾行

2.2 選擇列

選擇一列

選擇幾列

2.2 行列同時選擇定位

Loc定位

iloc定位

3.增

3.1 插入行

3.2 插入列

3.刪

3.1 刪除行

3.2 刪除列

4.改

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

讓你的Excel圖表動起來！

細說迴歸分析

SQL今日一題（7）：去重

SQL今日一題（4）：表連接

《用圖表說話》讀後感

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結