pandas 對一列做變換，手工版的labelEncoder 和 labelEncoder

原創

2020-05-04 07:50

import pandas as pd

df = pd.DataFrame({"key": ["aa", "bb", "cc"]})
dict = {"aa": 1, "bb": 3, "cc": 2}
df_map = df["key"].map(dict)

print("raw:\n", df.head())
print("mapped:\n", df_map)

raw:
   key
0  aa
1  bb
2  cc
mapped:
 0    1
1    3
2    2
Name: key, dtype: int64

from sklearn.preprocessing import LabelEncoder
df = pd.DataFrame({"f1": ["aa", "bb", "cc"],"f2": ["bb", "bb", "cc1"]})
co_feature = pd.DataFrame()
dict_data  = {}
index = 0
for col in ["f1","f2"]:
	le = LabelEncoder()
	le.fit(df[col])
	row = le.transform(df[col])
	dict_data[col] = row + index
	index = max(row) + 1


print(dict_data)

編碼結果：

{'f1': array([0, 1, 2]), 'f2': array([3, 3, 4])}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pandas數據分析讀書筆記（五）

plt.xlabel()，畫x軸標題 Plt.ylabel()，畫y軸標題 Plt.savefig(‘figpath.png’)，把圖片保存爲文件 S = pd.Series(np.random.randn(10).cumsum())

__LeeKuanYew

2020-07-08 06:46:51

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

原創

2024-04-29 23:26:28

五一假期暢遊指南：Python技術構建的熱門景點分析系統解讀

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

原創

2024-04-16 23:25:46

從靜態到動態化，Python數據可視化中的Matplotlib和Seaborn

本文分享自華爲雲社區《Python數據可視化大揭祕：Matplotlib和Seaborn高效應用指南》，作者：檸檬味擁抱。安裝Matplotlib和Seaborn 首先，確保你已經安裝了Matplotlib和Seaborn庫。如果沒有

原創

2024-03-25 11:01:41

05-快速理解SparkSQL的DataSet

1 定義一個數據集是分佈式的數據集合。Spark 1.6增加新接口Dataset，提供 RDD的優點：強類型、能夠使用強大lambda函數 Spark SQL優化執行引擎的優點可從JVM對象構造Dataset，然後函數式轉換（map

原創

2024-03-25 02:48:38

大模型推理框架：從理論到實踐的全面解析

在數據驅動的時代，深度學習技術已經滲透到各個行業，從圖像識別到自然語言處理，從推薦系統到智能客服，其應用無處不在。然而，深度學習模型的訓練和推理過程往往涉及大量數據和複雜計算，傳統的計算框架難以滿足需求。因此，大模型推理框架應運而生，成爲解

原創

2024-03-23 00:31:01

盤點一個Pandas處理json數據的實戰案例

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【黑科技·鼓包】問了一個Pandas處理json數據的問題。問題如下：大佬們請教下一個很簡單的問題，因爲我半瓢水也不知道該怎麼解決，問AI好像也寫不好描述，麻煩幫

原創

2024-03-06 22:16:06

微博數據可視化分析：利用Python構建信息圖表展示話題熱度

1. 引言隨着社交媒體的迅速發展，微博已成爲人們交流觀點、表達情感的重要平臺之一。微博評論數據蘊含着豐富的信息，通過對這些數據進行分析和可視化，我們可以深入瞭解用戶對特定話題的關注程度和情感傾向。本文將介紹如何利用Python進行微博

原創

2024-02-20 00:22:15

盤點一個txt文檔合併的實戰需求（方法三）

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【FiNε_】問了一個Pandas數據合併的問題。問題如下圖所示：上一篇文章中我們已經看到了3個方法，這一篇文章我們一起來看看另外一個方法。二、實現過程這裏【吳超建】斗

原創

2024-02-04 21:53:00

盤點一個txt文檔合併的實戰需求（方法一）

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【FiNε_】問了一個Pandas數據合併的問題。問題如下圖所示：二、實現過程這裏【隔壁😼山楂】給了一個指導，如下所示：並給出瞭如下代碼： from pathlib

原創

2024-02-02 21:54:46

適合 Python 入門的 8 款強大工具！

Python是一種開源的編程語言，可用於Web編程、數據科學、人工智能以及許多科學應用。學習Python可以讓程序員專注於解決問題，而不是語法。由於Python相對較小，且擁有各式各樣的工具，因此比Java和C++等語言更具優勢，同時豐富的

雲棲號資訊小編

2020-07-27 11:40:52

學習Python兩年，我的人生軌跡發生了怎樣的變化？

雲棲號資訊小編

2020-07-10 11:58:53

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

RPG_Zero

2020-07-08 11:09:44

dataframe根據時間戳timestamp切分成多個dataframe

原始數據是 dataframe 的一列 “timestamp” 需要按照每5分鐘做一次切分，下面是切分的代碼： import pandas as pd def dataframe_strip(dataframe: pd.Data

呆萌的代Ma

2020-07-08 04:48:59

用戶畫像-ID_MAPPING 利用並查集——求無向圖的所有連通子圖來實現所有用戶合併

一項目背景本項目是基於https://blog.csdn.net/weixin_41734687/article/details/99174064 此項目的改進。去年利用jacaard相似度對多用戶進行了合併。由於受到計算資

weixin_41734687

2020-07-08 01:20:47

24小時熱門文章

pandas 對一列做變換，手工版的labelEncoder 和 labelEncoder

遞歸遍歷子目錄改後綴名（批量文本改名rename）

讀取txt中的字段key，然後編號再輸出

tensorflow 通過TextLineDataset dataset.map 讀取數據

阿里雲endpoint

tensorflow 的 hashtable 和index table 讀取，求均值向量，缺失值處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結