產品經理入門遷移學習指南

春節前ARK的報告,仍然把人工智能看作未來大方向。而實際在人工智能落地過程中,數據量是繞不開的話題,如果數據量不夠大,人工智能大概率達不到預期的效果。遷移學習是解決算法落地過程中,依賴數據量問題的一種解法,是非常有趣的一種技術。

數據痛點

過去幾年從事智能推薦產品工作,有大量企業希望通過算法助力業務增長,而實際上很多企業不缺場景但缺數據量,因此很多需求實際是拒絕了。當拒絕的需求多了,也逐漸發現市場上小數據量佔大多數。爲此在上一份工作經歷中,從0-1搭建了一套基於規則的推薦系統,只需要人工配置幾步,就能搭建出一套推薦系統,解決了在小數據量下,做推薦的問題。

在人工智能領域有一門技術,可以解決小數據量下推薦的問題,就是遷移學習技術。遷移學習技術的核心邏輯是最大限度利用源域知識,提升目標任務的預測能力。遷移學習應用的核心是找到相似性和不變性。

以滑雪爲例,假設一個人從來沒有滑過雪,也即滑雪經驗數據爲0,但這個人之前玩過輪滑,玩輪滑對於速度與方向的控制與滑雪類似,這個人將輪滑經驗知識遷移到滑雪中,就可以快速掌握滑雪技巧,而避免摔跤中學習。這就是將輪滑中的經驗知識遷移到滑雪中,提升了滑雪學習的效率。

在小數據量或0-1訓練成本較高時,採用遷移學習可以顯著提升學習效率和效果。

遷移學習分類

根據領域及任務的相似性,遷移學習可以分爲歸納式遷移學習、直推式遷移學習、無監督遷移學習。其中歸納式遷移學習應用最廣泛。


歸納式遷移學習目標域數據爲有標籤樣本,根據源域是否有標籤可採用不同的方法做訓練。如源數據有標籤,考慮目標數據也有標籤,可以將源數據與目標數據一起聯合做訓練,相當於有了更大的數據量做訓練。如果源數據沒有標籤,考慮目標數據有標籤,可以將源數據作爲目標數據的特徵做訓練,相當於增加了目標數據的特徵維度,也能起到一定價值。

遷移學習應用

遷移學習奠基人楊強教授出版過《遷移學習》一書,其中詳細描述了遷移學習在新聞推薦中的應用

問題的前提是有老用戶的閱讀數據和用戶的app安裝列表,問題是此時如何給新用戶推最新的新聞文章,新用戶和新物品被稱爲雙冷啓動推薦。

傳統做新用戶冷啓動策略,通常採用全局熱門或最新內容,這種策略會導致新用戶完全受大部分用戶影響並不一定與用戶匹配的內容。

在上一份工作經歷中,給一家主打下沉市場的客戶做資訊推薦,下沉市場用戶對於情感與美食內容頗爲感興趣,按照新用戶冷啓動策略,給新用戶推情感與美食就天經地義,而客戶身處一二線城市就覺得很不合理,但在當時的技術條件下,除非寫規則,也沒有更好的辦法。

考慮如果能拿到用戶安裝列表,並應用遷移學習技術,並且假設具有類似應用程序安裝行爲的用戶在新聞領域中可能相似,以上問題就有了解法。

在以上假設下,可以通過用戶安裝應用的情況,計算出用戶之間相似度,並構造出每個的鄰域,相當於給每個用戶做聚類,並找出該用戶最相鄰的用戶來。再通過計算每個用戶鄰域用戶對於某條新聞偏好情況結合相似度遠近,就能計算出該用戶對某條新聞的偏好打分。

當新用戶請求時,通過計算鄰域用戶及這些鄰域對每條新聞的打分,最終計算出給新用戶最終的推薦列表。而對於新內容,可以利用老用戶對於新聞類別的偏好,計算出新用戶對新內容的偏好分。從而解決雙冷啓動的問題。

可見遷移學習可以在一定程度上解決推薦領域數據不足帶來的冷啓動問題。

遷移學習價值

對於產品經理來講,瞭解遷移學習的原理及應用場景基本夠用,沒有必要非要精通tensorflow和python,通過技術解決實際問題更爲關鍵。

另外機器學習領域通常是對現實世界的高度抽象,能夠讓我們跳出紛繁複雜的現實世界,以更加本質的視角看世界。遷移學習給了我們遷移的視角,而非一定0-1積累,現實中也有非常多應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章