python系列（2）---pandas庫基礎知識

原創

睡醒了的小码媛

2020-06-16 04:34

pandas是數據清洗常用包，知識點包括數據的創建、數據的操作、數據的計算、數據的索引。

腦圖如下。

一、數據創建：Series,DataFrame

1.Series創建的兩種方式：一維數組或者字典

2.Series運算

3.dataframe創建的兩種方式：數組或者字典

二、數據的常用操作

1.讀取文件pd.read_csv('文件路徑'，sep='\t')一般讀取txt文件

2.讀完了之後獲取某列df[列名]，某行數據df.ix（行名）

3.數據太多了只看某些符合條件數據，過濾獲取數據

4.數據的重命名rename(),替換replace(),排序sort()

4.數據的選取，刪除、添加

5.數據的單層索引：

loc.基於label名字索引。df.loc[:5]輸出前5行，包括第5行（df.head(5)就是不包括第5行的）。df.loc[:5,['player','height']]前面是行索引，後面是列，用逗號分隔，行列名稱必須都是表中有的字段才能索引到。
iloc.基於位置索引。df.iloc[[1,3,5]]輸出第1，3,5行。df.iloc[:5,[1,3,5]]輸出前5行，第1,3,5列。是這個位置的就行。

6.數據的過濾

df.loc[df['height']>180,'flag']='high',把身高大於180的數據判斷爲高，並輸出到一個名爲 flag的新列裏面。

數據的索引http://www.zhimengzhe.com/shujuku/other/267646.html

7.多重索引（層次化索引）

三、數據的清洗

1.缺失值處理方法

2.缺失值填充fillna()

3.缺失值的丟棄

四、對數據常用的數學統計方法

1.跟excel操作差不多的統計函數

2.查看數據的統計特徵df.describe()#包括平均數、方差、百分位數。

3,求相關係數df.corr(),協方差df.cov()

4.分組計算

參考文章：http://www.cnblogs.com/stream886/p/6021743.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python實現基金定投並可視化結果（及時止損）

1.什麼是指數基金 2.什麼是基金定投 3.本次數據來源 4.作出假設每週定投一次，每次定投500，計算2019年對滬深300指數基金進行定投的收益率每週定投一次，每次定投500，分別計算從2002年開始到2019年，每年定

2020-07-07 18:05:31

Python數據分析與挖掘實戰Chapter7 航空公司客戶價值分析

1.數據探索 #-*- coding: utf-8 -*- #對數據進行基本的探索，返回缺失值以及最大值，最小值 import pandas as pd datafile='G:/學習資料/統計/chapter7/demo/data

weixin_42764993

2020-07-06 13:07:27

【pandas】[9] pandas loc、iloc

創建一個dataframe import numpy as np import pandas as pd #創建一個Dataframe data=pd.DataFrame(np.arange(16).reshape(4,4),index

2020-07-06 09:40:22

【phantomjs】爬蟲安裝使用

phantomJS：的用處可謂非常廣泛諸如網絡監測、網頁截屏、無需瀏覽器的wen測試、頁面訪問自動化等。 phantomjs的下載安裝： http://phantomjs.org/download.html 下載完成後，直接解壓到桌面。

2020-07-04 23:33:26

matplotlib畫圖相關知識

Matplotlib 數據可視化 matplotlib庫的介紹數據可視化第三方庫 matplotlib.pyplot 是繪製各類可視化圖形的命令子庫，相當於快捷方式。 import matplotlib.pyplot as pl

2020-07-04 17:56:51

numpy庫相關知識

文章目錄numpy庫函數速查表numpy庫入門數據維度numpy介紹ndarray對象的屬性ndarray數組的創建和變換ndarray數組的變換ndarray數組的操作ndarray數組的運算numpy的隨機數函數numpy的統

2020-07-04 17:56:51

python學習筆記——numpy

補充tile(val,(x,y))將val內容複製x行，y列。val可以使單個值，也可以是列表shape()查看矩陣或者數組的維數；如果是一個值，返回'()';如果存在x行，y列，返回'(x,y)';含有n個值得一維數組，返回'(n,)'

2020-07-04 02:08:38

使用Python玩轉word

需求：客戶提供Excel表格試題試卷，要求我們隨機生成10份word文檔試卷，試題內容隨機排序。讀取Excel中數據生成word試卷定義生成試卷的總數讀取Excel中數據 # -*- coding: utf-8 -*- """

奥斯维克鸡腿学徒

2020-07-03 15:55:48

利用python進行數據分析學習筆記ch03.1

3.1數據結構和序列元組 tup = 4, 5, 6 tup 組成元素是元組的元組 nested_tup=(4,5,6),(7,8) nested_tup 使用tuple函數將任意序列或迭代器轉換爲元組 tuple([4,0

2020-07-02 02:46:00

Python中玩轉Excel

Python小玩法，實現對Excel的控制導入模塊打開excel表格，讀取數據寫入表格數據插入圖表數據發送郵件數據導入模塊 import xlrd import xlsxwriter import smtplib from em

奥斯维克鸡腿学徒

2020-07-01 22:06:57

【pandas】[5] DataFrame通過drop_duplicates()函數找出重複的行

1、構建測試數據 import pandas as pd df = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'], 'k2' : ['c1','d1','c1','c2','d2

2020-06-30 22:11:35

【pandas】[4] DataFrame實現sql中row_number() over(partition by column_1 order by column_2)

需求：pandas中能不能實現如sql中一樣的分組排序取值 1、構建測試數據 import pandas as pd df = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'],

2020-06-30 22:11:35

餘弦相似度計算，使用scipy.spatial.distance

餘弦相似度計算，使用scipy.spatial.distance引入模塊pdlist函數使用引入模塊 from scipy.spatial.distance import pdist pdlist函數使用 a=[1,1,1] b

2020-06-29 02:05:10

《利用Python進行數據分析》第7章軸連接與數據轉換

軸連接另一種數據合併運算也被稱作連接（concatenation）、綁定（binding）或堆疊（stacking）。NumPy有一個用於合併原始NumPy數組的concatenation函數。 In [2]: import p

2020-06-28 10:02:28

【python】封裝接口直接利用DataFrame繪製百分比柱狀圖

封裝接口直接利用DataFrame繪製百分比柱狀圖1. 背景前言2. 官方網址示例2.1 matplotlib_percentage_stacked_bar_plot2.2 percent-stacked-barplot2.3 D

2020-06-26 23:08:17

24小時熱門文章

最新文章

最新評論文章