2017.02.18:利用python進行數據分析02

1.pandas數據結構:Series和DataFrame。

1.1.Series是一種類似於一位數組的對象,它由一組數據以及一組與之相關的數據的標籤組成。

1.2.NaN:Not aNumber,非數字,表示缺失或是NA值。

1.3.pandas中的index,將軸標籤表示爲一個由python對象組成的Numpy數組。Index對象不可修改。

1.4.對於一個DataFrame,每條軸都可以有分層索引。

2.大部分存儲在磁盤上的表格類型數據都能用pandas.read_table進行加載。對於任何單字符號符分隔符文件,可以直接使用python內置的CSV模塊,將任意已打開的文件或文件類型的對象傳給CSV.reader。

3.通過JSON.loads即可將JSON字符串轉換成Python形式。

3.XML(ExtensibleNarkup Language)是另一種常見的支持分層。嵌套數據以及元數據的結構化格式。

4.存儲在MongoDB中的文檔被組織在數據庫的集合中,MongoDB服務器的每個運行實例可以村多個數據庫,而每個數據又可以有多個集合。

5.Pandas對象中的數據可以同郭一些內置方式進行合併。

5.1.pandas.merge可根據一個或多個鍵將不同DataFrame中的行連接起來。SQL或其他關係型數據的用戶對此應該會比較熟悉。實現數據庫的連接操作。

5.2.Pandas.contact可以沿着一條軸將多個對象堆疊到一起。

5.3.實例方法combine.first可以將重複數據編接在一起。用一個對象中的值填充另一個對象中的缺失值。

5.4.默認情況下,merge做的是inner鏈接,結果中的健是交集。

6.DataFrame中的join實例方法,實現按索引合併。用於合併多個帶有相同或相似索引的DataFrame對象。

7.層次化索引爲DataFrame數據的重排任務提供了一種具有良好一致性的方式。

7.1.stack:將數據的列“旋轉”爲行。

7.2.unstack:將數據的行“旋轉”爲列。

stack默認會濾除缺失數據,該運算是可逆的。

發佈了50 篇原創文章 · 獲贊 6 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章