Coupon Collector's Problem高級算法設計

1 Geometric Distribution

用X表示n 次投擲coin(獨立伯努力分佈)中,首次出現正面時,投擲的次數,X可能的取值爲1,2,3,。。。N,假設每次正面的概率爲1/2(一般化可設爲p)
在這裏插入圖片描述
具體參考

2 Coupon Collector’s Problem(CCP)

2.1關注點

CCP關注的是分散,與Balls of Bin 問題不同(其關注的是會不會集中,集中的程度有多少)

2.2 問題定義

設有采票 m張,需要集起n 種不同的類型,當集起n種類型的採票時,可以進行對獎或其它操作
當然可以抽象爲Balls of Bin 問題形式,其中所用有的m張採票爲m個球,要求集起的n張採票爲n個不同的盒子,因此可以問題定義爲m個球裝在不同的n個盒子裏,要求同一個盒子裝同一種採票,且每個盒子都必須裝滿。

2.2.1 具體說

定義問題YY 爲當m 是什麼數量級時,使得n種採票ZiZ_i收集起
m=?minZi>0m=?\\ \min{Zi} >0

定義問題YKY_K 投入多少球(或採票(m的值)),才能使KK個不同的盒子裝(或收集起nn張不同的採票以對獎)
m=?minZi>0(i=012K)(Kn)m=?\\ \min Z_i>0 \\(i=0,1,2\dots K)\\(K\in n)

3 解決YKY_K的求法

3.1 初始化

Y0Y_0=0,即不收集彩票,自然不需要採票,m=0
Y1Y_1=1

3.2 遞推公式

定義YkYk1=ZkY_k-Y_{k-1}=Z_k,先思考如何由Yk1Y_{k-1}求得YkY_{k}?
Yk1Y_{k-1}表示需要多少個球,才能使得n 個盒子中有k1k-1個盒子被裝;
YkY_{k}表示需要多少個球,才能使得n 個盒子中有kk個盒子被裝;
在這裏插入圖片描述
如圖紅色表示需要Yk1Y_{k-1}個球裝在了n個盒子中的k1k-1個,那麼計算需要YkY_k個球,裝下n 個盒子中的k個盒子時,只需將第k個球裝在剩下的n-k+1個盒子中。
定義pkp_k表示第k個球恰好裝入n-k+1(黑色盒子)的概率,1pk1-p_k表示進入k-1 個 盒子中的概率,即有如下表達:
pk=nk+1n1pk=k1np_k=\frac{n-k+1}{n}\\ \quad \\ 1-p_k=\frac{k-1}{n}\\

那麼上面定義的ZkZ_k便有了具體的物理意義,即是第一節提到的幾何分佈,表示需要新增ZkZ_k個球(可以理解爲重複ZkZ_k次投擲coin )才能使得有一個球不落入紅色部分的盒子中。

={pk 1pk  伯努力分佈 :擲硬幣=\left\{ \begin{aligned} p_k & & \ 正面,落入黑色部分\\ 1-p_k & & \ 反面 ,即落入紅色的部分\\ \end{aligned} \right.
因此重複Zk=zZ_k=z次投擲"coins"首次落入黑色的部分可以根據二項分佈來計算:Pr(Zk=z)=(1pk)z1pkPr(Z_k=z)=(1-p_k)^{z-1}p_k
而首次落入黑色部分平均需要投鄭幾次,即E(Zk)=1pkE{(Z_k)}=\frac{1}{p_k},其方差Var(Zk)=1pkpk2Var{(Z_k)}=\frac{1-p_k}{p_k^2}

3.3 求問題Y

由具體的物理意義可知

Y=Yn=(Y1Y0)+(Y2Y1)+(Y3Y2)+(Y4Y3)++(YnYn1)=Z1+Z2+Z3+Z4++ZnY=Y_n=(Y_1-Y_0)+(Y_2-Y_1)+(Y_3-Y2)+(Y_4-Y_3)+\dots+(Y_n-Y_{n-1})\\ =Z_1+Z_2+Z_3+Z_4+ \dots+Z_n

求Y的均值
E(Y)=E(Z1)+E(Z2)+E(Z3)+E(Z4)++E(Zn)=k=1n1pk=k=1nnnk+1=nk=1n1nk+1=nk=1n1k=nHn(Hn調Harmonicserieslnn+c)=nlnn+cnE(Y) =E(Z_1)+E(Z_2)+E(Z_3)+E(Z_4)+ \dots+E(Z_n)\\=\sum_{k=1}^n \frac{1}{p_k}\\=\sum_{k=1}^n\frac{n}{n-k+1}\\=n\sum_{k=1}^n\frac{1}{n-k+1}\\=n\sum_{k=1}^n\frac{1}{k}=nH_n(H_n爲調和級數Harmonic series,lnn+c)\\=nlnn+cn
Ynlnn±θ(n)withhighprobabilityY \sim nlnn \pm\theta(n) with \quad high \quad probability
Y(nlnncn,nlnn+cn)withhighprobabilityY \sim ( n\ln n -cn,n\ln n +cn)\quad with \quad high \quad probability
我們如果Y 的訪差較小,即可以將Y的界限定在bound E(Y)附近。
Var(Y)=Var(Z1+Z2+Z3+Z4++Zn)Var(Y)=Var(Z_1+Z_2+Z_3+Z_4+ \dots+Z_n)
ZkZ_k服從獨立分佈
Var(Y)=Var(Z1+Z2+Z3+Z4++Zn)=k=1n1pkpk2=k=1n1pk21pk=k=1n(n2(nk+1)2nnk+1)==k=1nn2(nk+1)2k=1nnnk+1==n2k=1n(nk+1)2nk=1n1nk+1=n2k=1n1k2nk=1n1k=π26n2nlnnVar(Y)=Var(Z_1+Z_2+Z_3+Z_4+ \dots+Z_n)\\ =\sum_{k=1}^n \frac{1-p_k}{p_k^2}=\sum_{k=1}^n \frac{1}{p_k^2}- \frac{1}{p_k}\\=\sum_{k=1}^n( \frac{n^2}{(n-k+1)^2}- \frac{n}{n-k+1})=\\=\sum_{k=1}^n\frac{n^2}{(n-k+1)^2}- \sum_{k=1}^n\frac{n}{n-k+1}=\\ =n^2\sum_{k=1}^n\frac{}{(n-k+1)^2}-n \sum_{k=1}^n\frac{1}{n-k+1}=\\ n^2\sum_{k=1}^n\frac{1}{k^2}-n \sum_{k=1}^n\frac{1}{k}=\\ \frac{\pi^2}{6}n^2-nlnn
Var(Y)θ(n2)Var(Y)\sim \theta(n^2)

利用切比雪夫不等式
在這裏插入圖片描述Pr{XE(x)cn}Var(Y)c2n2=O(1)\Pr\{|X-E(x)|\ge cn\}\le \frac{Var(Y)}{c^2n^2}=O(1)

進一步思考

  • mθ(nlnn)m\sim\theta(n \ln n)時,同時可以限定住minZi\min Z_i,maxZi\max Z_i:即minZiθ(mn)=θ(lnn)\min Z_i\sim \theta(\frac{m}{n})=\theta(\ln n)
  • theorem
    m>cnlnn=8nlnnm>c n\ln n=8n\ln nminZi,maxZiθ(m/n)withhighprobability\min Z_i,\max Z_i\sim \theta(m/n) \\with \quad high \quad probability
    即證 在m滿足上面條件時有Pr(12mnminZi,maxZi2mn)=1O(1)Pr(\frac{1}{2}\frac{m}{n}\leq \min Z_i,\max Z_i \leq 2\frac{m}{n})=1-O(1)

證明

要證Pr(maxZi2mn)=1O(1)Pr(\max Z_i \leq 2\frac{m}{n})=1-O(1)即證1Pr(maxZi2mn)=O(1)1-Pr(\max Z_i \leq 2\frac{m}{n})=O(1)
即證
Pr(maxZi>2mn)=O(1)O(1)Pr(\max Z_i >2\frac{m}{n})=O(1)即它的上界爲小O(1)\\
Pr(maxZi>2mn)=Pr(Z1>2mn)Pr(Z2>2mn)Pr(Zn>2mn)i=1nPr(Zi>2mn)Z1nPr(Z1>2mn)(1)Pr(\max Z_i >2\frac{m}{n})=\\Pr(Z_ 1>2\frac{m}{n})\bigcup Pr(Z_ 2>2\frac{m}{n})\bigcup \dots \bigcup Pr(Z_ n>2\frac{m}{n}) \\ \leq\sum_{i=1}^n Pr(Z_i >2\frac{m}{n})不訪設Z_1對應的概率最大 \\ \leq n\Pr(Z_1>2\frac{m}{n}) \quad \quad (1)

定義0-1 變量

X={X1,X2,,Xi,Xm}X=\{X_1,X_2,\dots,X_i,\dots X_m\}
Xi={1 i1withprobability1n0 i1withprobability11n X_i=\left\{ \begin{aligned} 1 & & \ 第i個球落入第1個盒子中 \quad with \quad probability \quad \frac{1}{n} \\ 0 & & \ 第i 個球不落入第1個盒子 \quad with \quad probability \quad 1-\frac{1}{n}\\ \end{aligned} \right.
因此Z1=i=1mXiZ_1= \sum_{i=1}^m X_i
E(Z1)=i=1mE(Xi)=mnE(Z_1)=\sum_{i=1}^mE(X_i)=\frac{m}{n}
利用CherNoff’s Bound
在這裏插入圖片描述
Pr(maxZi>2mn)=nPr(Z1>2mn)=nPr(Z1>(1+1)mn)n{e4}mnm>8nlnnmn=8lnnn[e4]8lnn=O(1)Pr(\max Z_i >2\frac{m}{n})= \leq n\Pr(Z_1>2\frac{m}{n}) \\ =n\Pr(Z_1>(1+1)\frac{m}{n}) \leq n\{\frac{e}{4}\}^{\frac{m}{n}}\\ (當m>8n\ln n 時 即\frac{m}{n}=8\ln n) \\ \le n[\frac{e}{4}]^{8\ln n}=O(1)

證明Pr(minZi12mn)=1O(1)Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=1-O(1)即證1Pr(minZi12mn)=O(1)1-Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=O(1)

即證

Pr(minZi<12mn)=O(1)O(1)Pr(\min Z_i <\frac{1}{2}\frac{m}{n})=O(1)即它的上界爲小O(1)\\
Pr(maxZi<12mn)=Pr(Z1<12mn)Pr(Z2<12mn)Pr(Zn<12mn)i=1nPr(Zi<12mn)Z1nPr(Z1<12mn)(1)Pr(\max Z_i <\frac{1}{2}\frac{m}{n})=\\Pr(Z_ 1<\frac{1}{2}\frac{m}{n})\bigcup Pr(Z_ 2<\frac{1}{2}\frac{m}{n})\bigcup \dots \bigcup Pr(Z_ n<\frac{1}{2}\frac{m}{n}) \\ \leq\sum_{i=1}^n Pr(Z_i <\frac{1}{2}\frac{m}{n})\quad \quad 不訪設Z_1對應的概率最大 \\ \leq n\Pr(Z_1<\frac{1}{2}\frac{m}{n}) \quad \quad (1)

在這裏插入圖片描述
n[e121/21/2]m/n=n[2/e]m/2n=n[2/e]4lnn=n0.3lnn=ne1.2lnn=O(1)(m/n=8lnn)\leq n[\frac{e^{-\frac{1}{2}}}{(1/2)^{1/2}}]^{m/n}=n[2/e]^{m/2n}=n[2/e]^{4 \ln n}=n0.3^ {\ln n}=ne^{-1.2 \ln n} \\=O(1) (\quad m/n=8\ln n)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章