1 背景知識介紹

機器學習算法大致可分爲3種：監督學習、非監督學習、強化學習。

在阿⾥移動電商平臺中，⼈機交互的便捷，碎⽚化使⽤的普遍性，頁⾯切換的串⾏化，⽤戶軌跡的可跟蹤性等都要求系統能夠對變幻莫測的⽤戶⾏爲以及瞬息萬變的外部環境進⾏完整地建模。基於監督學習的方式缺少有效的探索能力，系統傾向於給消費者推送曾經發⽣過⾏爲的信息單元（商品、店鋪或問題答案）。而強化學習作爲⼀種有效的基於⽤戶與系統交互過程建模和最⼤化過程累積收益的學習⽅法，是最接近自然界動物學習、決策本質的一種學習範式，具有優良的自學習、探索能力，在⼀些阿⾥具體的業務場景中進⾏了很好的實踐並得到⼤規模應⽤。

相對於DeepMind和學術界看重強化學習的前沿研究，阿⾥巴巴則將重點放在推動強化學習技術輸出及商業應⽤。

2 阿里服務的強化學習建模

阿里移動電商平臺作爲信息的載體，需要在與消費者的互動過程中，根據對消費者（環境）的理解，及時調整提供信息（商品、客服機器⼈的回答、路徑選擇等）的策略，從⽽最⼤化過程累積收益（消費者在平臺上的使⽤體驗）。
在搜索場景中，阿⾥巴巴對⽤戶的瀏覽購買⾏爲進⾏MDP 建模，在搜索實時學習和實時決策計算體系之上，實現了基於強化學習的排序策略決策模型排序。從⽽使得淘寶搜索的智能化進化⾄新的⾼度。雙11 桶測試效果表明，算法指標取得了近20% 的⼤幅提升。

在推薦場景中，阿⾥巴巴使⽤了深度強化學習與⾃適應在線學習，通過持續機器學習和模型優化建⽴決策引擎，對海量⽤戶⾏爲以及百億級商品特徵進⾏實時分析，幫助每⼀個⽤戶迅速發現寶貝，提⾼⼈和商品的配對效率，算法效果指標提升10%-20%。

在智能客服中，如阿⾥⼩蜜這類的客服機器⼈，作爲投放引擎的agent，需要有決策能⼒。這個決策不是基於單⼀節點的直接收益來確定，⽽是⼀個較爲長期的⼈機交互的過程，把消費者與平臺的互動看成是⼀個馬爾可夫決策過程，運⽤強化學習框架，建⽴⼀個消費者與系統互動的迴路系統，⽽系統的決策是建⽴在最⼤化過程收益上，來達到⼀個系統與⽤戶的動態平衡。

在⼴告系統中，如果⼴告主能夠根據每⼀條流量的價值進⾏單獨出價，⼴告主便可以在各⾃的⾼價值流量上提⾼出價，⽽在普通流量上降低出價，如此容易獲得較好的ROI，與此同時平臺也能夠提升⼴告與訪客間的匹配效率。阿⾥巴巴實現了基於強化學習的智能調價技術，對於來到⼴告位的每⼀個訪客，根據他們的當前狀態去決定如何操作調價，給他們展現特定的⼴告，引導他們的狀態向我們希望的⽅向上做⼀步轉移，在雙11 實測表明，CTR，RPM 和GMV均得到了⼤幅提升。

參考文獻
《強化學習在阿里的技術演進與業務創新》

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《強化學習在阿里的技術演進與業務創新》讀書筆記_00建模

1 背景知識介紹

2 阿里服務的強化學習建模

基於 Nginx Ingress + 雲效 AppStack 實現灰度發佈

C語言--右移左移

12款高效開源Wiki系統推薦，打造團隊知識管理利器

一個開源且全面的C#算法實戰教程

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

常用的 Git 指令

鼠標控制軟件有可能和虛擬機軟件產生衝突

sm4加密工具類

自然語言處理_02信息論基礎

自然語言處理_01基本概念和介紹

無法新建文件夾的有效解決方案

《強化學習在阿里的技術演進與業務創新》讀書筆記_00建模

David Silver深度強化學習第1課- intro-RL

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結