1.pandas數據結構:Series和DataFrame。
1.1.Series是一種類似於一位數組的對象,它由一組數據以及一組與之相關的數據的標籤組成。
1.2.NaN:Not aNumber,非數字,表示缺失或是NA值。
1.3.pandas中的index,將軸標籤表示爲一個由python對象組成的Numpy數組。Index對象不可修改。
1.4.對於一個DataFrame,每條軸都可以有分層索引。
2.大部分存儲在磁盤上的表格類型數據都能用pandas.read_table進行加載。對於任何單字符號符分隔符文件,可以直接使用python內置的CSV模塊,將任意已打開的文件或文件類型的對象傳給CSV.reader。
3.通過JSON.loads即可將JSON字符串轉換成Python形式。
3.XML(ExtensibleNarkup Language)是另一種常見的支持分層。嵌套數據以及元數據的結構化格式。
4.存儲在MongoDB中的文檔被組織在數據庫的集合中,MongoDB服務器的每個運行實例可以村多個數據庫,而每個數據又可以有多個集合。
5.Pandas對象中的數據可以同郭一些內置方式進行合併。
5.1.pandas.merge可根據一個或多個鍵將不同DataFrame中的行連接起來。SQL或其他關係型數據的用戶對此應該會比較熟悉。實現數據庫的連接操作。
5.2.Pandas.contact可以沿着一條軸將多個對象堆疊到一起。
5.3.實例方法combine.first可以將重複數據編接在一起。用一個對象中的值填充另一個對象中的缺失值。
5.4.默認情況下,merge做的是inner鏈接,結果中的健是交集。
6.DataFrame中的join實例方法,實現按索引合併。用於合併多個帶有相同或相似索引的DataFrame對象。
7.層次化索引爲DataFrame數據的重排任務提供了一種具有良好一致性的方式。
7.1.stack:將數據的列“旋轉”爲行。
7.2.unstack:將數據的行“旋轉”爲列。
stack默認會濾除缺失數據,該運算是可逆的。