《強化學習在阿里的技術演進與業務創新》讀書筆記_00建模

1 背景知識介紹

機器學習算法大致可分爲3種:監督學習、非監督學習、強化學習。

在阿⾥移動電商平臺中,⼈機交互的便捷,碎⽚化使⽤的普遍性,頁⾯切換的串⾏化,⽤戶軌跡的可跟蹤性等都要求系統能夠對變幻莫測的⽤戶⾏爲以及瞬息萬變的外部環境進⾏完整地建模。基於監督學習的方式缺少有效的探索能力,系統傾向於給消費者推送曾經發⽣過⾏爲的信息單元(商品、店鋪或問題答案)。而強化學習作爲⼀種有效的基於⽤戶與系統交互過程建模和最⼤化過程累積收益的學習⽅法,是最接近自然界動物學習、決策本質的一種學習範式,具有優良的自學習、探索能力,在⼀些阿⾥具體的業務場景中進⾏了很好的實踐並得到⼤規模應⽤。

相對於DeepMind和學術界看重強化學習的前沿研究,阿⾥巴巴則將重點放在推動強化學習技術輸出及商業應⽤。

2 阿里服務的強化學習建模

阿里移動電商平臺作爲信息的載體,需要在與消費者的互動過程中,根據對消費者(環境)的理解,及時調整提供信息(商品、客服機器⼈的回答、路徑選擇等)的策略,從⽽最⼤化過程累積收益(消費者在平臺上的使⽤體驗)。在這裏插入圖片描述
在搜索場景中,阿⾥巴巴對⽤戶的瀏覽購買⾏爲進⾏MDP 建模,在搜索實時學習和實時決策計算體系之上,實現了基於強化學習的排序策略決策模型排序。從⽽使得淘寶搜索的智能化進化⾄新的⾼度。雙11 桶測試效果表明,算法指標取得了近20% 的⼤幅提升。

在推薦場景中,阿⾥巴巴使⽤了深度強化學習與⾃適應在線學習,通過持續機器學習和模型優化建⽴決策引擎,對海量⽤戶⾏爲以及百億級商品特徵進⾏實時分析,幫助每⼀個⽤戶迅速發現寶貝,提⾼⼈和商品的配對效率,算法效果指標提升10%-20%。

在智能客服中,如阿⾥⼩蜜這類的客服機器⼈,作爲投放引擎的agent,需要有決策能⼒。這個決策不是基於單⼀節點的直接收益來確定,⽽是⼀個較爲長期的⼈機交互的過程,把消費者與平臺的互動看成是⼀個馬爾可夫決策過程,運⽤強化學習框架,建⽴⼀個消費者與系統互動的迴路系統,⽽系統的決策是建⽴在最⼤化過程收益上,來達到⼀個系統與⽤戶的動態平衡。

在⼴告系統中,如果⼴告主能夠根據每⼀條流量的價值進⾏單獨出價,⼴告主便可以在各⾃的⾼價值流量上提⾼出價,⽽在普通流量上降低出價,如此容易獲得較好的ROI,與此同時平臺也能夠提升⼴告與訪客間的匹配效率。阿⾥巴巴實現了基於強化學習的智能調價技術,對於來到⼴告位的每⼀個訪客,根據他們的當前狀態去決定如何操作調價,給他們展現特定的⼴告,引導他們的狀態向我們希望的⽅向上做⼀步轉移,在雙11 實測表明,CTR,RPM 和GMV均得到了⼤幅提升。

參考文獻
《強化學習在阿里的技術演進與業務創新》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章