pandas apply應用並行進程，多核加快運行速度

原創

2018-11-08 04:19

前言: 在進行數據處理的時候，我們經常會用到 pandas 。但是 pandas 本身好像並沒有提供多進程的機制。本文將介紹如何來自己實現 pandas (apply 函數)的多進程執行。其中，我們主要藉助 joblib 庫，這個庫爲python 提供了一個非常簡潔方便的多進程實現方法。

注意：本文說的都是多進程而不是多線程。

功能需求：
爲了匹配兩個datafarme中相同的部分，並把【’是否購買‘】這個標籤賦給第一個dataframe。（注：pandas中的合併連接也可以實現）
原來單進程代碼：

df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

def add_labels(filenam,df):
	list_name = list(df['name'])
	if filename in list_name:
		i = list_name.index(filename)
		return df['是否購買][i]
	else:
		return 'Nan'
		
df1['是否購買'] = df1['name'].apply(add_labels, args=(df2,))

修改爲多進程代碼：

from joblib import Parallel,delayed

def add_labels(filenam,df):
	list_name = list(df['name'])
	if filename in list_name:
		i = list_name.index(filename)
		return df['是否購買][i]
	else:
		return 'Nan'
		
def tmp_func(df1):
	df1['是否購買'] = df1['name'].apply(add_labels, args=(df2,))
	return df
def apply_parallel(df_grouped,func):
	results = Parallel(n_jobs=10)(delayed(func)(group) for name,group in df_grouped)
	return pd.concat(results)
	
df_grouped = df1.groupby(df1.index)
df1 = apply_parallel(df_grouped,tmp_func)

借鑑：https://blog.csdn.net/Jerr__y/article/details/71425298?utm_source=blogxgwz1

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pandas數據分析讀書筆記（五）

plt.xlabel()，畫x軸標題 Plt.ylabel()，畫y軸標題 Plt.savefig(‘figpath.png’)，把圖片保存爲文件 S = pd.Series(np.random.randn(10).cumsum())

2020-07-08 06:46:51

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

dataframe根據時間戳timestamp切分成多個dataframe

原始數據是 dataframe 的一列 “timestamp” 需要按照每5分鐘做一次切分，下面是切分的代碼： import pandas as pd def dataframe_strip(dataframe: pd.Data

2020-07-08 04:48:59

【Pandas】讀取和保存文件

1.讀取文件 Pandas可以讀取xlsx、json、csv、sql等多種文件格式 import pandas as pd # 讀取文件 file = pd.read_excel("test.xlsx", encoding="u

冰冷的希望

2020-07-08 02:02:18

【Pandas】選擇數據

1.創建一個DataFrame import numpy as np import pandas as pd dates = pd.date_range("20200301", periods=6) df1 = pd.DataF

冰冷的希望

2020-07-08 01:22:12

【Pandas】merge合併

1.on屬性 import pandas as pd df1 = pd.DataFrame({"a": ["A1", "A2", "A3"], "c": ["C1", "C2", "C3"

冰冷的希望

2020-07-08 01:22:12

用戶畫像-ID_MAPPING 利用並查集——求無向圖的所有連通子圖來實現所有用戶合併

一項目背景本項目是基於https://blog.csdn.net/weixin_41734687/article/details/99174064 此項目的改進。去年利用jacaard相似度對多用戶進行了合併。由於受到計算資

weixin_41734687

2020-07-08 01:20:47

pandas閱讀筆記

這幾天在閱讀python的pandas庫。現在還在閱讀第二章的內容，在第二章中又一個實例，有一個關於電影數據的數據集，然後，我們對它做一些簡單的分析，做個今天學習的總結。 Part 1 讀取數據首先使用的是pandas的read

2020-07-08 00:18:13

pandas apply lamba

import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex','Bob','Nancy','Mary','Alice','Jerr

2020-07-07 19:12:31

pandas+Django 以數據流的方式導出複雜數據（問卷調研）快速

導出樣式：表設計： class QuestionnaireTB(models.Model): """問卷管理""""" survey_type = models.ManyToManyField('SurveyType

2020-07-07 15:33:05

pandas隔行計算均值方差(相鄰行或隔行的均值/方差)

目前沒有找到一個函數來做這件事的,因此自己敲一個: 計算相鄰兩行的均值: dataframe['length_mean'] = (dataframe['length'].shift(-1) + \

2020-07-07 12:02:08

pandas 根據兩列數據篩選dataframe

如果是篩選某一列中等於某個值的那一行,可以使用: dataframe[dataframe['列名'] == "具體值"] 如果篩選某兩列中的值等於具體值的那幾行,可以使用: search_se = dataframe.loc[d

2020-07-07 12:02:08

Python3下pandas學習筆記

本文參考鏈接：https://www.yiibai.com/pandas 三種 pandas 數據結構的創建和數據獲取系列 pandas.Series 創建空系列 >>> import pandas as pd >>> s = pd

2020-07-07 11:20:50

1. 初識Pandas

1. 重要前言這段時間和一些做數據分析的同學閒聊，我發現數據分析技能入門階段存在一個普遍性的問題，很多憑着興趣入坑的同學，都能夠很快熟悉Python基礎語法，然後不約而同的一頭扎進《利用Python進行數據分析》這本經典之中，

2020-07-07 11:00:40

2. 靈活的Pandas索引

序言學習了Pandas的同學，有超過60%仍然投向了Excel的懷抱，之所以做此下策，多半是因爲剛開始用Python處理數據時，選擇想要的行和列實在太痛苦，完全沒有Excel想要哪裏點哪裏的快感。初識Pandas 教程考慮到篇

2020-07-07 11:00:39

24小時熱門文章

最新文章

最新評論文章