Python基本數據統計

基本的數據處理過程
(1)數據收集
(2)數據整理
(3)數據描述
(4)數據分析

便捷數據獲取
(1)使用matplotlib的finance包中的API可以獲取一些財經網站(如雅虎)的財經數據。
(2)使用python的nltk包可以下載一些自然語言的語料庫。

數據準備
(1)使用列表設定dataframe各列的名稱,然後在創建dataframe時把列表傳遞給columns參數,就可以設置各列的字段名了。
(2)python中時間的表示跟人類的表示形式不一樣,因此需要使用date類中的方法來轉換。
(3)創建時間序列:可以以日期作爲DataFrame的索引,使用date_range方法設置,然後將對象傳遞給index參數。

數據顯示
(1)顯示方式:顯示索引,顯示列名,顯示數據的值,顯示數據描述。
(2)當類型不一樣時,值的獲取或者匹配可能會出錯。
(3)顯示方式–顯示行:①專用方式;②切片。
(4)使用head方法和tail方法指定從頭或者從尾顯示多少個元素。

數據選擇
(1)選擇方式:①選擇行;②選擇列;③選擇區域;④篩選(條件選擇)。
(2)選擇方式–行、列:①標籤label(loc)。
(3)選擇方式–行和列的區域:①標籤label(loc);②iloc(位置)
(4)選擇方式–單個值:①at;②iat。
(5)loc與iloc不同在於:①loc使用的是行標籤,就是把索引的符號寫到行的參數那裏就行,而iloc用的是行位置,要自己確定是哪些行;②對於列的不同,loc用的也是標籤,而iloc用的是第幾個標籤,用的是位置。
(6)at與iat的區別和loc與iloc的相似。
(7)iloc和iat更像是很多程序語言獲取多維數組的元素時的所用的下標式方法;而loc與at更像是pandas的DataFrame獨有的,使用標籤獲取的方法。
(8)選擇方式–條件篩選:向loc,iloc或者[]操作符中傳入布爾表達式(mask),可用於篩選數據。

簡單統計與處理
(1)直接訪問列名屬性,然後進行一些關係運算可以選擇符合某些條件的數據(也是mask使用的一種),然後獲取這些數據的相關信息。
(2)使用numpy的diff函數可以計算某序列元素相鄰數據的差值。
(3)numpy的where方法結合序列元素訪問可以獲取滿足特定條件的元素。
(4)多看看第三方庫中的函數並使用,這樣才能熟悉。
(5)排序:使用dataframe的sort方法,設置ascending參數可以實現逆序。
(6)使用value_counts方法可以統計某一列中的不同值出現的次數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章