pandas介紹
它含有使數據清洗和分析工作變得更快更簡單的數據結構和操作工具。pandas經常和其它工具一同使用,如數值計算工具NumPy和SciPy,分析庫statsmodels和scikit-learn,和數據可視化庫matplotlib。pandas是基於NumPy數組構建的,特別是基於數組的函數和不使用for循環的數據處理。
pandas的數據結構
兩個主要數據結構:Series和DataFrame。爲大多數應用提供了一種可靠的、易於使用的基礎。
Series
Series是一種類似於一維數組的對象,它由一組數據(各種NumPy數據類型)以及一組與之相關的數據標籤(即索引)組成。
可僅由一組數據即可產生最簡單的Series
=====================================
Series的字符串表現形式爲:索引在左邊,值在右邊。由於我們沒有爲數據指定索引,於是會自動創建一個0到N-1(N爲數據的長度)的整數型索引。通過Series 的values和index屬性獲取其數組表示形式和索引對象
=====================================
創建的Series帶有一個可以對各個數據點進行標記的索引
=====================================
通過索引的方式選取Series中的單個或一組值
[‘s’, ‘d’, ‘x’]是索引列表,即使它包含的是字符串而不是整數。使用NumPy函數或類似NumPy的運算(如根據布爾型數組進行過濾、標量乘法、應用數學函數等)都會保留索引值的鏈接
=====================================
=====================================
還可以將Series看成是一個定長的有序字典,因爲它是索引值到數據值的一個映射。它可以用在許多原本需要字典參數的函數中
=====================================
如果數據被存放在一個Python字典中,也可以直接通過這個字典來創建Series
=====================================
如果只傳入一個字典,則結果Series中的索引就是原字典的鍵(有序排列)。你可以傳入排好序的字典的鍵以改變順序
=====================================
將使用缺失(missing)或NA表示缺失數據。pandas的isnull和notnull函數可用於檢測缺失數據
=====================================
Series也有類似的實例方法
=====================================
Series最重要的一個功能是,它會根據運算的索引標籤自動對齊數據
=====================================
Series對象本身及其索引都有一個name屬性,該屬性跟pandas其他的關鍵功能關係非常密切
=====================================
Series的索引可以通過賦值的方式就地修改
++++++++++++++++++++++++++++++++++++