電商推薦系統項目工作總結

原創

2018-11-20 00:07

電商推薦系統總結：
一. 數據清洗
< 1 >. 數據集中是否存在缺失值，處理缺失值。
處理數據集中缺失值的策略大概分爲刪除，補齊和忽略三類。組刪除：將含有缺失值的屬性特徵刪除（電商推薦中一般不採取此方法，具體看業務場景）；忽略：補齊處理只是將未知值補以我們的主觀估計值，不一定完全符合客觀事實，在對不完備信息進行補齊處理的同時，我們或多或少地改變了原始的信息系統。而且，對空值不正確的填充往往將新的噪聲引入數據中，使挖掘任務產生錯誤的結果。因此，在許多情況下，我們還是希望在保持原始信息不發生變化的前提下對信息系統進行處理。直接在包含空值的數據上進行數據挖掘。這類方法包括貝葉斯網絡和人工神經網絡等。（此部分描述借鑑）；補齊處理包括特殊值填充，迴歸值填充等，下面針對電商數據集進行簡單舉例：
（1）將連續值離散化，利用區間值的衆數，中位數或者平均值來填充特徵屬性中缺失的部分（年齡，月收入等特徵）。
（2）連續值丟失，例如身高等，可以利用其他特徵訓練模型迴歸預測出較爲合理的值來填充。（其他策略不一一介紹）
總結：數據集中可能會存在多個特徵都存在缺失值的情況，因此需要大量的嘗試，不同的特徵利用多種處理方式，然後利用交叉驗證找出較爲合理的組合處理方式。（經驗值不能在實際操作中直接利用，數據集和模型的不同處理的方式也不同）

< 2 >.數據集中各種特徵數值的處理。
（1）.數值型：調整特徵的數量級/幅度調整/歸一化/標準化；統計數值的Max,Min，Mean,Std等信息；離散化連續值特徵；每個類別對應的變量統計值histogram(分佈狀況)。
（2）類別性：one-hot編碼；啞變量等
（3）時間型：時間戳特徵能夠很好挖掘的話可以有效提高模型的效果。
（4）刪除特徵中的噪音點和離羣點（可利用迴歸或者分箱的方法找到此類數據點）。
< 3 > 過濾數據，顧名思義，過濾掉用不到的特徵數據，保留有用信息。
< 4 > 將有價值的數據源重新組合，提取成爲新的特徵信息。
< 5 > 刪除無行爲交互的商品和用戶。
< 6 > 刪除瀏覽量很大，但是購買量極少的用戶（惰性用戶或者爬蟲用戶）

二. 數據的理解與分析
< 1 > 掌握各個特徵的含義。
< 2 > 觀察數據特點，是否可用來建模。
< 3 > 可視化展示，便與分析。
< 4 > 觀察數據的滯後性，用戶的行爲特徵與時間等因素的關係（比較細緻的做法）。

三. 特徵提取（工程）
< 1 > 提取基於清洗後數據集有價值的特徵。（可以在最新相關領域的頂級會議論文中參考，小木蟲APP論文懸賞板塊（非廣告）在校的學生幫忙下載）
< 2 > 電商推薦中可以對用戶和商品之間的行爲進行特徵提取（一般此類特徵比較有價值，可以類推到其他業務場景）。
< 3 > 提取行爲因素中的核心特徵，如何提取。
< 4 > 識別瞬時行爲或者累計行爲。

四. 建立模型
< 1 > 使用機器學習算法進行選擇和召回。
< 2 > 數據集的切分。
< 3 > 算法參數的設置以及調優（重點）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

電商推薦系統項目工作總結

pandas創建dataframe的方法

pandas.read_csv()參數詳解

pandas創建Series

pd.read_excel()/pd.to_excel()參數詳解

pd.read_sql()參數詳解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結