2017.02.18：利用python進行數據分析02

1.pandas數據結構：Series和DataFrame。

1.1.Series是一種類似於一位數組的對象，它由一組數據以及一組與之相關的數據的標籤組成。

1.2.NaN：Not aNumber，非數字，表示缺失或是NA值。

1.3.pandas中的index，將軸標籤表示爲一個由python對象組成的Numpy數組。Index對象不可修改。

1.4.對於一個DataFrame，每條軸都可以有分層索引。

2.大部分存儲在磁盤上的表格類型數據都能用pandas.read_table進行加載。對於任何單字符號符分隔符文件，可以直接使用python內置的CSV模塊，將任意已打開的文件或文件類型的對象傳給CSV.reader。

3.通過JSON.loads即可將JSON字符串轉換成Python形式。

3.XML（ExtensibleNarkup Language）是另一種常見的支持分層。嵌套數據以及元數據的結構化格式。

4.存儲在MongoDB中的文檔被組織在數據庫的集合中，MongoDB服務器的每個運行實例可以村多個數據庫，而每個數據又可以有多個集合。

5.Pandas對象中的數據可以同郭一些內置方式進行合併。

5.1.pandas.merge可根據一個或多個鍵將不同DataFrame中的行連接起來。SQL或其他關係型數據的用戶對此應該會比較熟悉。實現數據庫的連接操作。

5.2.Pandas.contact可以沿着一條軸將多個對象堆疊到一起。

5.3.實例方法combine.first可以將重複數據編接在一起。用一個對象中的值填充另一個對象中的缺失值。

5.4.默認情況下，merge做的是inner鏈接，結果中的健是交集。

6.DataFrame中的join實例方法，實現按索引合併。用於合併多個帶有相同或相似索引的DataFrame對象。

7.層次化索引爲DataFrame數據的重排任務提供了一種具有良好一致性的方式。

7.1.stack：將數據的列“旋轉”爲行。

7.2.unstack：將數據的行“旋轉”爲列。

stack默認會濾除缺失數據，該運算是可逆的。

發佈了50 篇原創文章 · 獲贊 6 · 訪問量 3萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.