使用pyspark 進行向量計算

原創

2020-06-15 23:02

最近根據Airbnb在KDD 2018的bestpaper《Real-time Personalization using Embeddings for Search Ranking at Airbnb》做實時推薦的項目。其中在表達用戶短期興趣特徵時我們是將用戶近兩週對item的行爲數乘以對應item向量並將所有行爲向量相加。此處item向量已由word2vec訓練好。

數據格式如下：

我們需要將num*vector後按user_id groupby求vector和。

一開始用的方法是將spark.dataframe轉換成pandas.dataframe處理（分佈式轉換方法可以參考另一篇博文：https://blog.csdn.net/htbeker/article/details/93630921）。這樣做樣本量在千萬級可以，但是涉及到兩種dataframe之間來回轉換很麻煩，而且樣本量上去之後我們公司的計算平臺就開始error了，後面嘗試了使用rdd計算的方法，可以在兩種dataframe間切換並支持大量樣本的計算,代碼也很簡潔，如下：

dff = spark.createDataFrame(df.rdd.map(lambda x: (x.user_id,x.num*x.vector))\
                            .reduceByKey(lambda x,y:x+y),schema = ['user_id','vector'])

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用pyspark 進行向量計算

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

hive獲取今天/明天/昨天時間

使用pyspark 進行向量計算

XGBoost原理及目標函數推導詳解

spark.DataFrane分佈式轉pandas.dataframe

tf.reduce_sum()

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結