pandas使用指南

import pandas as pd

# 1、讀取數據
#讀取xls
df = pd.read_excel('製造商重碼.xls')
#讀取csv
df=pd.read_csv('HR_PERSONAL_ORGANIZATION.txt',sep=',',header=None,encoding='utf-8',error_bad_lines=False)
#或者自己生成數據
df=pd.DataFrame(np.random.randn(6,5),columns=['a','b','c','d','e'])

### 2、pandas操作具體數值:(賦缺失值)
#查看有多少行
print(len(df.index.values))
#查看有多少列
print(len(df.columns.values))
df.iloc[4:6,0] = np.nan
df.iloc[5:7,2] = np.nan
df.iloc[7,3] = np.nan
df.iloc[2:3,4] = np.nan

## 3、、缺失值
#判斷表是否有缺失值,
df = df.isnull() 
#輸出哪些列有缺失值
df = df.isnull().any()
#輸出每列缺失值的數量:
df = df.isnull().sum()

# 4、清理缺失值
df = df.dropna()
df.dropna(how = 'all')    # 傳入這個參數後將只丟棄全爲缺失值的那些行,axis默認值爲0
df.dropna(axis = 1)       # 丟棄有缺失值的列(一般不會這麼做,這樣會刪掉一個特徵)
df.dropna(axis=1,how="all")   # 丟棄全爲缺失值的那些列
df.dropna(axis=0,subset = ["a", "e"])   # 丟棄‘a’和‘e’這兩列中有缺失值的行 

#5、刪除某一列
del df['MANUFACTURE_CODE1']

#6、去重
df.drop_duplicates(subset=['MANUFACTURE_CODE1_NAME','MANUFACTURE_CODE2_NAME'],keep='first',inplace=True)

# 7、將空值替換爲1
df = df.replace('NaN','1')
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章