興趣探測的模型化探索

原創

于建民

2020-04-11 00:10

背景

最近跟阿力討論了下興趣探測的事情，啓發了非常有意思的解決思路。在此簡要整理下，沒準以後擴展成統一的數學模型理論，還可以發篇小文章呢。

探測的關鍵問題和嘗試思路

興趣探測的核心問題

探測對象：對什麼樣的用戶探測
探測資源：用什麼資源探測
探測手段：如何探測和時機

現在梳理出來的思路有兩個：
一）是將探測作爲分佈的分佈來建模。
二）是將探測作爲用戶狀態轉移的中間action來建模。
希望能夠找到個大一統的數學理論支持，將探測作爲其中的一個子場景應用驗證。

在第一種思路下，思考幾個問題：

如何將Dirichlet分佈衍生成現有的探測模型，或者是將現有探測模型抽象成Dirichlet分佈【關係抽象==》具化外延】。
證明在不同探測數據選擇方式下，模型收斂性情況；即指出哪些條件約束下，探測模型是有效的，哪些情況下，探測模型是失效的。

假設現有探測模型：f(x, var) = ctr。其中x是樣本特徵，var是波動參數[trainable]。期望學到某個用戶的探測置信度var，表示該用戶是多大程度上需要探測。突然想到，如果是f(x, tag, var)= ctr，這樣是不是直接將某個tag的探測置信度var也表達了。這裏的模型，有好多個更細節的東西，比如爲什麼用ctr作爲目標，而不是點擊；var學習時用到的採樣方式；模型訓練時類似EM方式或者GAN網絡的訓練方法等，後續再補充。
怎麼抽象成爲地雷克雷分佈呢？

潛在問題

獨立性假設條件的滿足，不一定都能成立。
短期估計與長期估計收斂性是否一致。做N次探測和做無限探測，對未來總收益的影響評估。

背景知識梳理

概率的分佈

關鍵詞：n重伯努利試驗二項分佈 beta分佈多項式分佈 Dirichlet分佈共軛分佈
n重伯努利實驗：在相同條件下，重複地相互獨立地進行n次隨機實驗，實驗結果只有發生 $A$ 和不發生 $\overline{A}$ 兩種情況。
以 $X$ 表示其中發生 $A$ 的次數， $X$ 是一個隨機變量，描述其分佈律如下，在 $n$ 次實驗中 $A$ 發生 $k$ 次的概率爲 $P(X=k)=C_{n}^k p^k(1-p)^{n-k}$ ，稱隨機變量 $X$ 服從參數爲 $(n,p)$ 的二項分佈，記爲 $X \sim b(n,p)$ 。
二項式定理： $(p+q)^n=C_n^0 p^{n} q^0 + C_n^1 p^{n-1}q^1 + ... + C_n^k p^{k}q^{n-k}+ ... + C_n^np^0q^{n}=\sum_{k=0}^nC_{n}^kp^{n-k}q^k,其中C_n^k=\frac{n!}{k!(n-k)!}$
二項分佈的期望 $E(X)=np$ ，期望 $D(X)=np(1-p)$ 。對二項分佈，總是隨着 $k$ 的增加，概率 $P(X=k)$ 呈現先增後降的特點。對 $n$ 趨向於無窮大時，二項分佈變爲正太分佈【這個跟中心極限定理是一致的】。
(0~1)分佈就是二項分佈的n=1的特殊情況， $P(X=k)=p^kq^{1-k}$

在二項分佈裏，概率 $p$ 是參數；而在Beta分佈裏，概率 $p$ 是隨機變量；前者對發生事件的數量建模，後者對發生事件的概率建模。
$Beta(\alpha, \beta)$ 分佈是概率的概率分佈
$\alpha$ 和 $\beta$ 是發生和不發生的數量，分別爲不同值時，表示我們觀察到的總體情況，這個時候我們認爲不同比例背後，意味着發生概率也是不同的。比如棒球擊中來猜測棒球手擊中率的問題，多臂賭博機的最大收益問題。
來看下Beta分佈，在不同 $\alpha$ 和 $\beta$ 下的事件發生的概率分佈。

爲什麼我們執着於用Beta分佈來描述概率的概率分佈呢？用其他的分佈也可以啊，因爲Beta分佈有很好的特性，在貝葉斯推理中，Beta分佈與二項分佈是共軛的。

發現沒，如果共軛的話，後驗概率分佈 $P(\theta|X)$ 可以跟先驗概率分佈 $P(\theta)=Beta(\alpha, \beta)$ 是一致的，在新增實驗x個發生事件和n-x個非發生事件之後的後驗概率分佈 $P(\theta|X)=Beta(\alpha +x, \beta +n-x)$ 。多麼漂亮的結果，壓根不需要經過中間各種亂七八糟的計算了，直接可以根據先驗概率計算後驗概率。
補充：
gamma函數： $Γ(x)=∫_0^∞ t^{x−1}e^{−t}dt$ ；beta函數： $B(x,y)=∫_0^1t^{x−1}(1−t)^{y−1}dt$
beta分佈： $Beta(\alpha, \beta)=\frac{Γ(\alpha)Γ(\beta)}{Γ(\alpha+\beta)}$
beta分佈的概率密度函數： $Beta(x, \alpha, \beta)= \frac{1}{B(α,β)} x^{α−1} (1−x)^{β−1}$

多項式分佈，是二項分佈的推廣，事件有多種結果。把投硬幣換成投骰子。
Dirichlet分佈，是多項式分佈的共軛分佈；他們的關係可以類別 beta分佈之於二項分佈。

布參數估計

ML估計，MAP，貝葉斯估計，其他估計方法

本文到底講了些啥呢？反正沒有解決本文前面提出的三個核心問題。哈哈，純屬討論。

Reference

參考：PRML-章節
參考：概率論與數理統計
參考：https://mp.weixin.qq.com/s/HxKZgFFxD6oLJigrd8scAw
參考：https://towardsdatascience.com/beta-distribution-intuition-examples-and-derivation-cf00f4db57af
參考：https://bookdown.org/probability/beta/beta-and-gamma.html#beta

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

興趣探測的模型化探索

背景

探測的關鍵問題和嘗試思路

潛在問題

背景知識梳理

概率的分佈

布參數估計

Reference

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

Bert論文閱讀

DIEN在新聞推薦中的簡化探索

興趣探測的多樣性解決方案

微信的look-alike的啓發

興趣探測的模型化探索

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結