Jupyter 缺失值处理

原創

2020-07-07 11:59

import os
import pandas as pd
import numpy as np
os.chdir('D:\Workspaces\Jupyter')
df = pd.read_excel('data_test.xlsx')
# 每一列所有的缺失值数目和
np.sum(df.isnull())
# 返回值是TRUE的缺失
df.isnull()
# 每一列缺失数目
np.sum(df.isnull(),axis = 0)
# 每一行缺失数目
np.sum(df.isnull(),axis = 1)
# 每一列的缺失率
df.apply(lambda x:sum(x.isnull())/len(x),axis=0)
# 每一行的缺失率
df.apply(lambda x:sum(x.isnull())/len(x),axis=1)
# 只要有缺失，就删除，按行
df.dropna()
# 第二种表达
df.dropna(how = 'any',axis=0)
# 按列删除
df.dropna(how = 'any',axis=1)
# 这一列全缺失才删除
df.dropna(how = 'all',axis=1)
# 删除某一列
df.drop('TeamID',axis=1)
# 删除多列
df.drop(['TeamID','EventTime'],axis=1)
# 按行删除这两列有缺失的数据
df.dropna(subset = ['EventTime','EventOrigin_x'],how ='any')
# 填上平均值，两点之间是列名
df.EventOrigin_x.fillna(df.EventOrigin_x.mean())
# 填上中位数
df.EventOrigin_x.fillna(df.EventOrigin_x.median())
# 填上众数，可以用来填不是数值的缺失，比如性别
df.EventOrigin_x.fillna(df.EventOrigin_x.mode())
# 这一列有多个众数取第一个
df.EventOrigin_x.fillna(df.EventOrigin_x.mode()[0])
# 所有的缺失值都用20填补
df.fillna(20)
# 不同的列补充不一样的内容
df.fillna(value ={'EventType':df.EventType.mode()[0],
                'EventTime':df.EventTime.mean()})
# 从上往下，每次填补都和前一项相同
df.fillna(method='ffill')
# 从下至上，每一项都和下一项相同
df.fillna(method='bfill')
# 线性插值法
df.EventTime.interpolate(method = 'linear')
# 二次多项式插值
df.EventTime.interpolate(method = 'polynomial',order = 2)

# !!!重要的是这些都是返回视图，真实数据没有改变，需要加上df = df.啥啥啥的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python学习二：列表、循环、元组、字典

《毫無障礙學Python》鄧文淵著學習筆記 1.列表結構（List） (又稱清單，即爲其他語言的數組Array) 列表的使用：列表名 = [元素1,元素2,…] 中括號隔開，元素數據類型可同可不同，獲取元素值方法：下標訪問（下

2020-07-08 11:00:43

Python学习一：变量与数据类型、表达式、条件语句

《毫無障礙學Python》鄧文淵著學習筆記變量與數據類型、表達式、條件語句變量 score = 80 #Python變量不聲明就可使用，Python會根據變量值設定數據類型，該score爲int型 fruit = "香蕉"

2020-07-08 11:00:42

Python学习六：web数据抓取与分析

《毫無障礙學Python》鄧文淵著學習筆記 web數據抓取與分析 1.網址解析 . 　　通過Python的 urlparse組件中的 urlparse函數，可對網址進行解析，其返回值爲元組類型的ResultParse對象，通過其

2020-07-08 11:00:42

Python学习五：sqlite数据库

《毫無障礙學Python》鄧文淵著學習筆記 sqlite數據庫注：需要有數據庫基礎（會用SQL語句創建表，對錶內容進行增刪改查操作即可） sqlite安裝教程參考：https://www.runoob.com/sqlite/

2020-07-08 11:00:42

Python学习四：文件操作

《毫無障礙學Python》鄧文淵著學習筆記文件操作 1. open() 函數 open() 函數打開文件　　python內建函數可打開指定文件用於對文件讀取、修改、添加內容　　open(filename[,mode]

2020-07-08 11:00:42

Python学习三：函数、导包、目录（文件夹）管理

《毫無障礙學Python》鄧文淵著學習筆記 1.函數 1.1 函數基本（1）語法： . 　　def 函數名(參數1，參數2，參數3,…): 　　#參數可無　　　　程序塊　　return 返回值1,返回值2,返回值3…

2020-07-08 11:00:42

python中的list,tuple,set,dict总结

list,tuple,set,dict總結表名稱列表元組集合字典英文 list tuple set dict 可否讀寫讀寫只讀讀寫讀寫可否重複是是否是存儲方式值值鍵（

伊直程序媛

2020-07-08 04:31:41

python中eval函数和exec函数的区别与联系

前言最近在用python寫一個小工具，有一個場景是需要將用戶手動輸入的字符串轉成代碼，一開始不知道python中有內置函數可以直接完成這件事，倒騰了很久，後面還是靠度娘找到了eval函數，部分解決了我的問題，期間遇到困難，又發現

2020-07-07 18:08:31

jupyter 画基础图

import numpy as np import matplotlib.pyplot as plt %matplotlib inline # 創建一個等差數列，初始是0，終值是100，有100個數 x = np.linspace(0

2020-07-07 11:59:12

Jupyter excel和csv数据导入

import os import pandas as pd os.getcwd() #當前路徑 df = pd.read_csv(r'D:\Workspaces\Jupyter\fullevents.csv') # 注意這個r # 還有

2020-07-07 11:59:12

改变jupyter的打开路径

jupyter的原始打開路徑是C盤的用戶，如果想在其他路徑打開，將路徑複製成文本，打開cmd,輸入 jupyter notebook + 路徑，回車就行

2020-07-07 11:59:12

Appium+Python+selenium自动化测试环境搭建

一、環境搭建安裝Appium 打開appiumdesktop版安裝程序正常，中途電腦可能會出現缺少.net framewor 4.0/4.5，會出現提示，需要先安裝配置Appium環境變量：C:\Program Files (x8

2020-07-07 04:14:42

django + gunicorn + nginx 部署

部署準備 1. 在django的settings.py中設置 DEBUG = False ALLOWED_HOSTS = [‘*’] STATIC_ROOT = ‘/var/www/html/xxx/static’ 2. 收集

2020-07-07 03:29:00

djcelery3.1.17与celery4.0不兼容的错误

今天使用django、djcelery、celery開發一個新的任務執行功能，以前都好好的環境，今天結果出現如下錯誤： from celery.utils.timeutils import timedelta_second

2020-07-07 03:28:59

在Django项目中使用djcelery model api创建和更新定时任务--实际使用版本

環境說明 1. 依賴 python 2.7 django==1.8.16 celery==3.1.25 Django==1.8.16 django-celery==3.1.17 dja

2020-07-07 03:28:59

24小時熱門文章

SQL优化-20231016

最新文章

最新評論文章