Python基本數據統計

原創

2020-06-29 04:02

基本的數據處理過程
（1）數據收集
（2）數據整理
（3）數據描述
（4）數據分析

便捷數據獲取
（1）使用matplotlib的finance包中的API可以獲取一些財經網站（如雅虎）的財經數據。
（2）使用python的nltk包可以下載一些自然語言的語料庫。

數據準備
（1）使用列表設定dataframe各列的名稱，然後在創建dataframe時把列表傳遞給columns參數，就可以設置各列的字段名了。
（2）python中時間的表示跟人類的表示形式不一樣，因此需要使用date類中的方法來轉換。
（3）創建時間序列：可以以日期作爲DataFrame的索引，使用date_range方法設置，然後將對象傳遞給index參數。

數據顯示
（1）顯示方式：顯示索引，顯示列名，顯示數據的值，顯示數據描述。
（2）當類型不一樣時，值的獲取或者匹配可能會出錯。
（3）顯示方式–顯示行：①專用方式；②切片。
（4）使用head方法和tail方法指定從頭或者從尾顯示多少個元素。

數據選擇
（1）選擇方式：①選擇行；②選擇列；③選擇區域；④篩選（條件選擇）。
（2）選擇方式–行、列：①標籤label（loc）。
（3）選擇方式–行和列的區域：①標籤label（loc）；②iloc（位置）
（4）選擇方式–單個值：①at；②iat。
（5）loc與iloc不同在於：①loc使用的是行標籤，就是把索引的符號寫到行的參數那裏就行，而iloc用的是行位置，要自己確定是哪些行；②對於列的不同，loc用的也是標籤，而iloc用的是第幾個標籤，用的是位置。
（6）at與iat的區別和loc與iloc的相似。
（7）iloc和iat更像是很多程序語言獲取多維數組的元素時的所用的下標式方法；而loc與at更像是pandas的DataFrame獨有的，使用標籤獲取的方法。
（8）選擇方式–條件篩選：向loc，iloc或者[]操作符中傳入布爾表達式（mask），可用於篩選數據。

簡單統計與處理
（1）直接訪問列名屬性，然後進行一些關係運算可以選擇符合某些條件的數據（也是mask使用的一種），然後獲取這些數據的相關信息。
（2）使用numpy的diff函數可以計算某序列元素相鄰數據的差值。
（3）numpy的where方法結合序列元素訪問可以獲取滿足特定條件的元素。
（4）多看看第三方庫中的函數並使用，這樣才能熟悉。
（5）排序：使用dataframe的sort方法，設置ascending參數可以實現逆序。
（6）使用value_counts方法可以統計某一列中的不同值出現的次數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python基本數據統計

《Algorithms》第八章課後習題8.10題解

Python爬蟲庫學習筆記-requests

Python爬蟲實踐筆記（三）

Python爬蟲實踐筆記（二）

《統計學習》筆記（2）-- EM算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結