B站課程的學習筆記,含部分自己補充知識,課程鏈接:https://www.bilibili.com/video/av36643275/?p=3
第一課:文件中含自動生成的索引:
1、在讀入文件時指定索引列
df = df.read_excel('...',index_col='..')
2、讀入後,另寫一行設置索引
df = df.set_index('...')
第二課:文件含標題,或非表頭數據的行數據:
讀入數據時指定header從某一行開始
df = df.read_excel('...',header=1)
注意:程序中行、列等均從0開始,即0,1,2,3,...
第三課:行、列、單元格
1、數據類型series(一維數組) 一個序列
生成序列:s1=pd.Series() s1.data,s1.name,s1.index
例如:L1=[100,200,300] L2=['X','Y','Z']
S1=pd.Series(L1,index=L2)
或者:S1=pd.Series([100,200,300],index=['X','Y','Z'])
2、數據類型dic(字典)
dic是python中唯一的一個映射類型,是以{}括起來的鍵、值、對組成,dict中key是唯一的,在保存時,根據key來計算出一個內存地址,然後將key-value保存在這個地址中,這種算法被稱爲hash算法。所以dict中key必須是可hash的。 已知的可哈希(不可變)的數據類型: int, str, tuple, bool;不可哈希(可變)的數據類型: list, dict, set
d={'x':100,'y':200,'z':300} d.keys d.values
3、將dict轉換爲series
s1=pd.Series(d)
4、將series序列加入dataframe,再設置成以行或列的形式加入
DataFrame類型:DataFrame是一個表格型的數據類型,每列值類型可以不同。既有行索引也有列索引。常用於表達二維數據,也可以表達多維數據。
(1)以列的形式加入:df=pd.DataFrame[{s1.name:s1,s2.name:s2,s3.name:s3}]
(2)以行的形式加入:df=pd.DataFrame([s1,s2,s3])