python 數據預處理

原創

2018-09-06 04:56

1.缺失值填充

import numpy as np
import pandas as pd

df = pd.DataFrame({'a': [3, 1, 3, 2, 4, 3, 2, 4, 3],
                   'b': [4, 6, np.nan, 6, 2, 7, np.nan, 3, 5],
                   'c': [np.nan, 8, 2, 4, np.nan, 7, 6, 3, 5]})
print(df)
df['b'].fillna(df['b'].mean(), inplace=True)  # 均值填充
df['c'].fillna(df['c'].median(), inplace=True)  # 中位數填充
print(df)

2.oneHot編碼

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

df = pd.DataFrame({'a': [4, 2, 2, 1, 3, 2, 4, 2, 1],
                   'b': ['a', 'd', 'c', 'b', 'b', 'a', 'a', 'd', 'b']})
print(df)

b = LabelEncoder().fit_transform(df['b'])
b_onehot = pd.DataFrame(OneHotEncoder(sparse=False).fit_transform(b.reshape(len(b), 1)))
df = pd.concat([df, b_onehot], ignore_index=True, axis=1)
print(df)

3.數據歸一化

import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler

df = pd.DataFrame({'a': [1, 2, 3, 4, 5, 6, 7, 8, 9],
                   'b': [4, 3, 5, 3, 2, 4, 2, 1, 5]})
scaler = StandardScaler()
print(scaler.fit_transform(pd.DataFrame(df['a'])))

min_max_scaler = MinMaxScaler()
print(min_max_scaler.fit_transform(pd.DataFrame(df['a'])))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京東二面：爲什麼Netty要造FastThreadLocal？

FastThreadLocal 從字面意義上來看，它是“Fast”+“ThreadLocal”的結合體，寓意爲快速的 ThreadLocal。那麼，問題來了，Netty 爲什麼要再造一個 FastThreadLocal？FastThread

Java中文社羣

2024-05-28 14:33:04

微信小程序預約視頻號直播

一、概述微信小程序提供了可以喚起預約視頻號直播彈窗的接口 reserveChannelsLive，該接口接收一個參數 noticeId，通過 getChannelsLiveNoticeInfo 接口獲取。因此，過程如下：查看視頻號 i

2024-05-28 14:22:23

公衆號5月C#/.NET熱文一覽

C#/.NET/.NET Core全面的學習、工作、面試指南知識庫轉眼之間維護DotNetGuide（C#/.NET/.NET Core學習、工作、面試指南知識庫）已經持續超過了三年多的時間，Commit提交數也超過900+，在前幾天Gi

2024-05-28 14:22:13

Spring Boot 3.3 正式發佈，王炸級更新，應用啓動速度直接起飛！

大家好，我是R哥。最新消息，Spring Boot 一次性發布了 3 個版本： 3.3.0 3.2.6 3.1.13 Spring Boot 3.3 正式發佈了，3.1.x 在前幾天也停止維護了。最新的支持版本如下：從路線圖可以

2024-05-28 14:21:32

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

作者：l拉不拉米鏈接：https://juejin.cn/post/7031445206152577061 一、前言公司剛入職了一名中級Java開發，經過一個星期的適應學習，各方面表現還不錯，於是分配了一個小的迭代給新人做。需求很簡

2024-05-28 14:21:32

徹底搞清楚vue3的defineExpose宏函數是如何暴露方法給父組件使用

前言衆所周知，當子組件使用setup後，父組件就不能像vue2那樣直接就可以訪問子組件內的屬性和方法。這個時候就需要在子組件內使用defineExpose宏函數來指定想要暴露出去的屬性和方法。這篇文章來講講defineExpose宏函數是

你假裝沒察覺

2024-05-28 14:21:21

🔥 FolkMQ v1.5.1 發佈（“新式” 國產消息中間件）

FolkMQ 是個“新式”的消息中間件。強調：“小而巧”、“簡而強”。功能簡表角色功能生產者（客戶端）發佈普通消息、Qos0消息、定時消息、順序消息、可過期消息、事務消息、廣播消息消費者（客戶端）訂閱

2024-05-28 14:21:21

cv2讀取圖片中文路徑問題

https://blog.csdn.net/liuqinshouss/article/details/78696032

張博的博客

2024-05-28 14:20:01

盟軍敢死隊2官網

http://www.mj141319.imotor.com/index.php 裏面有盟軍敢死隊2 五百多關的下載. 需要一個一個安裝.

張博的博客

2024-05-28 14:20:01

git 下載大陸鏡像地址

https://github.com/waylau/git-for-win?tab=readme-ov-file

張博的博客

2024-05-28 14:20:01

win11休眠功能

https://www.sysgeek.cn/windows-11-hibernate/

張博的博客

2024-05-28 14:20:01

記一次 .NET某工控WPF程序被人惡搞的卡死分析

一：背景 1. 講故事這一期程序故障除了做原理分析，還順帶吐槽一下，熟悉我的朋友都知道我分析dump是免費的，但免費不代表可以濫用我的寶貴時間，我不知道有些人故意惡搞卡死是想幹嘛，不得而知，希望後面類似的事情越來越少吧！廢話不多說，我們來

2024-05-28 14:15:51

《最新出爐》系列入門篇-Python+Playwright自動化測試-48-Route類攔截修改請求-上篇

1.簡介在日常工作和學習中，自動化測試的時候：在加載頁面時，可能頁面出現很多不是很重要或者不是我們所關注的，這個時候我們就可以選擇不加載這些內容，以提高頁面加載速度，節省資源。例如：可能頁面上圖片比較多，而我們又不關心圖片內容。那麼，在

2024-05-28 14:14:40

使用阿里雲oss,同一個域名前端實現通過路徑區分來訪問多個不同的項目

前端存放在阿里雲oss上，域名cname解析到阿里雲cdn,cdn指向阿里雲oss存儲 oss中存放的相對目錄是這樣的： a項目代碼目錄/a項目靜態文文件 a項目代碼目錄/a項目首頁文件index.html a項目代碼目錄/b項

2024-05-28 14:14:00

C++文件/流

C++文件讀寫（文本文件/二進制文件）一、前言常見的文件類型可分爲兩種：文本文件和二進制文件。文本文件的閱讀相對容易，可以使用記事本/Notepad++/VS Code等應用程序直接打開閱覽；然而二進制文件由0/1序列組成，直接打卡二

2024-05-28 14:13:40

24小時熱門文章

最新文章

最新評論文章