1 Geometric Distribution
用X表示n 次投擲coin(獨立伯努力分佈)中,首次出現正面時,投擲的次數,X可能的取值爲1,2,3,。。。N,假設每次正面的概率爲1/2(一般化可設爲p)
具體參考
2 Coupon Collector’s Problem(CCP)
2.1關注點
CCP關注的是分散,與Balls of Bin 問題不同(其關注的是會不會集中,集中的程度有多少)
2.2 問題定義
設有采票 m張,需要集起n 種不同的類型,當集起n種類型的採票時,可以進行對獎或其它操作
當然可以抽象爲Balls of Bin 問題形式,其中所用有的m張採票爲m個球,要求集起的n張採票爲n個不同的盒子,因此可以問題定義爲m個球裝在不同的n個盒子裏,要求同一個盒子裝同一種採票,且每個盒子都必須裝滿。
2.2.1 具體說
定義問題Y 爲 Y 爲 Y 爲 當m 是什麼數量級時,使得n種採票Z i Z_i Z i 收集起 :
即m = ? min Z i > 0 m=?\\
\min{Zi} >0 m = ? min Z i > 0
定義問題Y K Y_K Y K 投入多少球(或採票(m的值)),才能使K K K 個不同的盒子裝(或收集起n n n 張不同的採票以對獎)
m = ? min Z i > 0 ( i = 0 , 1 , 2 … K ) ( K ∈ n ) m=?\\
\min Z_i>0
\\(i=0,1,2\dots K)\\(K\in n) m = ? min Z i > 0 ( i = 0 , 1 , 2 … K ) ( K ∈ n )
3 解決Y K Y_K Y K 的求法
3.1 初始化
令Y 0 Y_0 Y 0 =0,即不收集彩票,自然不需要採票,m=0
而Y 1 Y_1 Y 1 =1
3.2 遞推公式
定義Y k − Y k − 1 = Z k Y_k-Y_{k-1}=Z_k Y k − Y k − 1 = Z k ,先思考如何由Y k − 1 Y_{k-1} Y k − 1 求得Y k Y_{k} Y k ?
Y k − 1 Y_{k-1} Y k − 1 表示需要多少個球,才能使得n 個盒子中有k − 1 k-1 k − 1 個盒子被裝;
Y k Y_{k} Y k 表示需要多少個球,才能使得n 個盒子中有k k k 個盒子被裝;
如圖紅色表示需要Y k − 1 Y_{k-1} Y k − 1 個球裝在了n個盒子中的k − 1 k-1 k − 1 個,那麼計算需要Y k Y_k Y k 個球,裝下n 個盒子中的k個盒子時,只需將第k個球裝在剩下的n-k+1個盒子中。
定義p k p_k p k 表示第k個球恰好裝入n-k+1(黑色盒子)的概率,1 − p k 1-p_k 1 − p k 表示進入k-1 個 盒子中的概率,即有如下表達:
p k = n − k + 1 n 1 − p k = k − 1 n p_k=\frac{n-k+1}{n}\\
\quad \\
1-p_k=\frac{k-1}{n}\\
p k = n n − k + 1 1 − p k = n k − 1
那麼上面定義的Z k Z_k Z k 便有了具體的物理意義,即是第一節提到的幾何分佈,表示需要新增Z k Z_k Z k 個球(可以理解爲重複Z k Z_k Z k 次投擲coin )才能使得有一個球不落入紅色部分的盒子中。
伯 努 力 分 布 : 擲 硬 幣 = { p k 正 面 , 落 入 黑 色 部 分 1 − p k 反 面 , 即 落 入 紅 色 的 部 分 伯努力分佈 :擲硬幣=\left\{
\begin{aligned}
p_k & & \ 正面,落入黑色部分\\
1-p_k & & \ 反面 ,即落入紅色的部分\\
\end{aligned}
\right.
伯 努 力 分 布 : 擲 硬 幣 = { p k 1 − p k 正 面 , 落 入 黑 色 部 分 反 面 , 即 落 入 紅 色 的 部 分
因此重複Z k = z Z_k=z Z k = z 次投擲"coins"首次落入黑色的部分可以根據二項分佈來計算:P r ( Z k = z ) = ( 1 − p k ) z − 1 p k Pr(Z_k=z)=(1-p_k)^{z-1}p_k P r ( Z k = z ) = ( 1 − p k ) z − 1 p k
而首次落入黑色部分平均需要投鄭幾次,即E ( Z k ) = 1 p k E{(Z_k)}=\frac{1}{p_k} E ( Z k ) = p k 1 ,其方差V a r ( Z k ) = 1 − p k p k 2 Var{(Z_k)}=\frac{1-p_k}{p_k^2} V a r ( Z k ) = p k 2 1 − p k
3.3 求問題Y
由具體的物理意義可知
Y = Y n = ( Y 1 − Y 0 ) + ( Y 2 − Y 1 ) + ( Y 3 − Y 2 ) + ( Y 4 − Y 3 ) + ⋯ + ( Y n − Y n − 1 ) = Z 1 + Z 2 + Z 3 + Z 4 + ⋯ + Z n Y=Y_n=(Y_1-Y_0)+(Y_2-Y_1)+(Y_3-Y2)+(Y_4-Y_3)+\dots+(Y_n-Y_{n-1})\\
=Z_1+Z_2+Z_3+Z_4+ \dots+Z_n Y = Y n = ( Y 1 − Y 0 ) + ( Y 2 − Y 1 ) + ( Y 3 − Y 2 ) + ( Y 4 − Y 3 ) + ⋯ + ( Y n − Y n − 1 ) = Z 1 + Z 2 + Z 3 + Z 4 + ⋯ + Z n
求Y的均值
E ( Y ) = E ( Z 1 ) + E ( Z 2 ) + E ( Z 3 ) + E ( Z 4 ) + ⋯ + E ( Z n ) = ∑ k = 1 n 1 p k = ∑ k = 1 n n n − k + 1 = n ∑ k = 1 n 1 n − k + 1 = n ∑ k = 1 n 1 k = n H n ( H n 爲 調 和 級 數 H a r m o n i c s e r i e s , l n n + c ) = n l n n + c n E(Y)
=E(Z_1)+E(Z_2)+E(Z_3)+E(Z_4)+ \dots+E(Z_n)\\=\sum_{k=1}^n \frac{1}{p_k}\\=\sum_{k=1}^n\frac{n}{n-k+1}\\=n\sum_{k=1}^n\frac{1}{n-k+1}\\=n\sum_{k=1}^n\frac{1}{k}=nH_n(H_n爲調和級數Harmonic series,lnn+c)\\=nlnn+cn
E ( Y ) = E ( Z 1 ) + E ( Z 2 ) + E ( Z 3 ) + E ( Z 4 ) + ⋯ + E ( Z n ) = k = 1 ∑ n p k 1 = k = 1 ∑ n n − k + 1 n = n k = 1 ∑ n n − k + 1 1 = n k = 1 ∑ n k 1 = n H n ( H n 爲 調 和 級 數 H a r m o n i c s e r i e s , l n n + c ) = n l n n + c n
即Y ∼ n l n n ± θ ( n ) w i t h h i g h p r o b a b i l i t y Y \sim nlnn \pm\theta(n) with \quad high \quad probability Y ∼ n l n n ± θ ( n ) w i t h h i g h p r o b a b i l i t y
Y ∼ ( n ln n − c n , n ln n + c n ) w i t h h i g h p r o b a b i l i t y Y \sim ( n\ln n -cn,n\ln n +cn)\quad with \quad high \quad probability Y ∼ ( n ln n − c n , n ln n + c n ) w i t h h i g h p r o b a b i l i t y
我們如果Y 的訪差較小,即可以將Y的界限定在bound E(Y)附近。
V a r ( Y ) = V a r ( Z 1 + Z 2 + Z 3 + Z 4 + ⋯ + Z n ) Var(Y)=Var(Z_1+Z_2+Z_3+Z_4+ \dots+Z_n) V a r ( Y ) = V a r ( Z 1 + Z 2 + Z 3 + Z 4 + ⋯ + Z n )
Z k Z_k Z k 服從獨立分佈
V a r ( Y ) = V a r ( Z 1 + Z 2 + Z 3 + Z 4 + ⋯ + Z n ) = ∑ k = 1 n 1 − p k p k 2 = ∑ k = 1 n 1 p k 2 − 1 p k = ∑ k = 1 n ( n 2 ( n − k + 1 ) 2 − n n − k + 1 ) = = ∑ k = 1 n n 2 ( n − k + 1 ) 2 − ∑ k = 1 n n n − k + 1 = = n 2 ∑ k = 1 n ( n − k + 1 ) 2 − n ∑ k = 1 n 1 n − k + 1 = n 2 ∑ k = 1 n 1 k 2 − n ∑ k = 1 n 1 k = π 2 6 n 2 − n l n n Var(Y)=Var(Z_1+Z_2+Z_3+Z_4+ \dots+Z_n)\\
=\sum_{k=1}^n \frac{1-p_k}{p_k^2}=\sum_{k=1}^n \frac{1}{p_k^2}- \frac{1}{p_k}\\=\sum_{k=1}^n( \frac{n^2}{(n-k+1)^2}- \frac{n}{n-k+1})=\\=\sum_{k=1}^n\frac{n^2}{(n-k+1)^2}- \sum_{k=1}^n\frac{n}{n-k+1}=\\
=n^2\sum_{k=1}^n\frac{}{(n-k+1)^2}-n \sum_{k=1}^n\frac{1}{n-k+1}=\\
n^2\sum_{k=1}^n\frac{1}{k^2}-n \sum_{k=1}^n\frac{1}{k}=\\
\frac{\pi^2}{6}n^2-nlnn
V a r ( Y ) = V a r ( Z 1 + Z 2 + Z 3 + Z 4 + ⋯ + Z n ) = k = 1 ∑ n p k 2 1 − p k = k = 1 ∑ n p k 2 1 − p k 1 = k = 1 ∑ n ( ( n − k + 1 ) 2 n 2 − n − k + 1 n ) = = k = 1 ∑ n ( n − k + 1 ) 2 n 2 − k = 1 ∑ n n − k + 1 n = = n 2 k = 1 ∑ n ( n − k + 1 ) 2 − n k = 1 ∑ n n − k + 1 1 = n 2 k = 1 ∑ n k 2 1 − n k = 1 ∑ n k 1 = 6 π 2 n 2 − n l n n
V a r ( Y ) ∼ θ ( n 2 ) Var(Y)\sim \theta(n^2) V a r ( Y ) ∼ θ ( n 2 )
利用切比雪夫不等式
Pr { ∣ X − E ( x ) ∣ ≥ c n } ≤ V a r ( Y ) c 2 n 2 = O ( 1 ) \Pr\{|X-E(x)|\ge cn\}\le \frac{Var(Y)}{c^2n^2}=O(1) Pr { ∣ X − E ( x ) ∣ ≥ c n } ≤ c 2 n 2 V a r ( Y ) = O ( 1 )
進一步思考
當m ∼ θ ( n ln n ) 時 m\sim\theta(n \ln n)時 m ∼ θ ( n ln n ) 時 ,同時可以限定住min Z i \min Z_i min Z i ,max Z i \max Z_i max Z i :即min Z i ∼ θ ( m n ) = θ ( ln n ) \min Z_i\sim \theta(\frac{m}{n})=\theta(\ln n) min Z i ∼ θ ( n m ) = θ ( ln n )
theorem
當m > c n ln n = 8 n ln n m>c n\ln n=8n\ln n m > c n ln n = 8 n ln n 時min Z i , max Z i ∼ θ ( m / n ) w i t h h i g h p r o b a b i l i t y \min Z_i,\max Z_i\sim \theta(m/n) \\with \quad high \quad probability min Z i , max Z i ∼ θ ( m / n ) w i t h h i g h p r o b a b i l i t y
即證 在m滿足上面條件時有P r ( 1 2 m n ≤ min Z i , max Z i ≤ 2 m n ) = 1 − O ( 1 ) Pr(\frac{1}{2}\frac{m}{n}\leq \min Z_i,\max Z_i \leq 2\frac{m}{n})=1-O(1) P r ( 2 1 n m ≤ min Z i , max Z i ≤ 2 n m ) = 1 − O ( 1 )
證明
要證P r ( max Z i ≤ 2 m n ) = 1 − O ( 1 ) Pr(\max Z_i \leq 2\frac{m}{n})=1-O(1) P r ( max Z i ≤ 2 n m ) = 1 − O ( 1 ) 即證1 − P r ( max Z i ≤ 2 m n ) = O ( 1 ) 1-Pr(\max Z_i \leq 2\frac{m}{n})=O(1) 1 − P r ( max Z i ≤ 2 n m ) = O ( 1 )
即證
P r ( max Z i > 2 m n ) = O ( 1 ) 即 它 的 上 界 爲 小 O ( 1 ) Pr(\max Z_i >2\frac{m}{n})=O(1)即它的上界爲小O(1)\\
P r ( max Z i > 2 n m ) = O ( 1 ) 即 它 的 上 界 爲 小 O ( 1 )
而P r ( max Z i > 2 m n ) = P r ( Z 1 > 2 m n ) ⋃ P r ( Z 2 > 2 m n ) ⋃ ⋯ ⋃ P r ( Z n > 2 m n ) ≤ ∑ i = 1 n P r ( Z i > 2 m n ) 不 訪 設 Z 1 對 應 的 概 率 最 大 ≤ n Pr ( Z 1 > 2 m n ) ( 1 ) Pr(\max Z_i >2\frac{m}{n})=\\Pr(Z_ 1>2\frac{m}{n})\bigcup Pr(Z_ 2>2\frac{m}{n})\bigcup \dots \bigcup Pr(Z_ n>2\frac{m}{n}) \\
\leq\sum_{i=1}^n Pr(Z_i >2\frac{m}{n})不訪設Z_1對應的概率最大
\\
\leq n\Pr(Z_1>2\frac{m}{n}) \quad \quad (1)
P r ( max Z i > 2 n m ) = P r ( Z 1 > 2 n m ) ⋃ P r ( Z 2 > 2 n m ) ⋃ ⋯ ⋃ P r ( Z n > 2 n m ) ≤ i = 1 ∑ n P r ( Z i > 2 n m ) 不 訪 設 Z 1 對 應 的 概 率 最 大 ≤ n Pr ( Z 1 > 2 n m ) ( 1 )
定義0-1 變量
X = { X 1 , X 2 , … , X i , … X m } X=\{X_1,X_2,\dots,X_i,\dots X_m\} X = { X 1 , X 2 , … , X i , … X m }
X i = { 1 第 i 個 球 落 入 第 1 個 盒 子 中 w i t h p r o b a b i l i t y 1 n 0 第 i 個 球 不 落 入 第 1 個 盒 子 w i t h p r o b a b i l i t y 1 − 1 n X_i=\left\{
\begin{aligned}
1 & & \ 第i個球落入第1個盒子中 \quad with \quad probability \quad \frac{1}{n} \\
0 & & \ 第i 個球不落入第1個盒子 \quad with \quad probability \quad 1-\frac{1}{n}\\
\end{aligned}
\right.
X i = ⎩ ⎪ ⎨ ⎪ ⎧ 1 0 第 i 個 球 落 入 第 1 個 盒 子 中 w i t h p r o b a b i l i t y n 1 第 i 個 球 不 落 入 第 1 個 盒 子 w i t h p r o b a b i l i t y 1 − n 1
因此Z 1 = ∑ i = 1 m X i Z_1= \sum_{i=1}^m X_i Z 1 = ∑ i = 1 m X i
E ( Z 1 ) = ∑ i = 1 m E ( X i ) = m n E(Z_1)=\sum_{i=1}^mE(X_i)=\frac{m}{n} E ( Z 1 ) = ∑ i = 1 m E ( X i ) = n m
利用CherNoff’s Bound
而P r ( max Z i > 2 m n ) = ≤ n Pr ( Z 1 > 2 m n ) = n Pr ( Z 1 > ( 1 + 1 ) m n ) ≤ n { e 4 } m n ( 當 m > 8 n ln n 時 即 m n = 8 ln n ) ≤ n [ e 4 ] 8 ln n = O ( 1 ) Pr(\max Z_i >2\frac{m}{n})=
\leq n\Pr(Z_1>2\frac{m}{n}) \\
=n\Pr(Z_1>(1+1)\frac{m}{n}) \leq n\{\frac{e}{4}\}^{\frac{m}{n}}\\
(當m>8n\ln n 時 即\frac{m}{n}=8\ln n)
\\ \le n[\frac{e}{4}]^{8\ln n}=O(1)
P r ( max Z i > 2 n m ) = ≤ n Pr ( Z 1 > 2 n m ) = n Pr ( Z 1 > ( 1 + 1 ) n m ) ≤ n { 4 e } n m ( 當 m > 8 n ln n 時 即 n m = 8 ln n ) ≤ n [ 4 e ] 8 ln n = O ( 1 )
證明P r ( min Z i ≥ 1 2 m n ) = 1 − O ( 1 ) Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=1-O(1) P r ( min Z i ≥ 2 1 n m ) = 1 − O ( 1 ) 即證1 − P r ( min Z i ≥ 1 2 m n ) = O ( 1 ) 1-Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=O(1) 1 − P r ( min Z i ≥ 2 1 n m ) = O ( 1 )
即證
P r ( min Z i < 1 2 m n ) = O ( 1 ) 即 它 的 上 界 爲 小 O ( 1 ) Pr(\min Z_i <\frac{1}{2}\frac{m}{n})=O(1)即它的上界爲小O(1)\\
P r ( min Z i < 2 1 n m ) = O ( 1 ) 即 它 的 上 界 爲 小 O ( 1 )
而P r ( max Z i < 1 2 m n ) = P r ( Z 1 < 1 2 m n ) ⋃ P r ( Z 2 < 1 2 m n ) ⋃ ⋯ ⋃ P r ( Z n < 1 2 m n ) ≤ ∑ i = 1 n P r ( Z i < 1 2 m n ) 不 訪 設 Z 1 對 應 的 概 率 最 大 ≤ n Pr ( Z 1 < 1 2 m n ) ( 1 ) Pr(\max Z_i <\frac{1}{2}\frac{m}{n})=\\Pr(Z_ 1<\frac{1}{2}\frac{m}{n})\bigcup Pr(Z_ 2<\frac{1}{2}\frac{m}{n})\bigcup \dots \bigcup Pr(Z_ n<\frac{1}{2}\frac{m}{n}) \\
\leq\sum_{i=1}^n Pr(Z_i <\frac{1}{2}\frac{m}{n})\quad \quad 不訪設Z_1對應的概率最大
\\
\leq n\Pr(Z_1<\frac{1}{2}\frac{m}{n}) \quad \quad (1)
P r ( max Z i < 2 1 n m ) = P r ( Z 1 < 2 1 n m ) ⋃ P r ( Z 2 < 2 1 n m ) ⋃ ⋯ ⋃ P r ( Z n < 2 1 n m ) ≤ i = 1 ∑ n P r ( Z i < 2 1 n m ) 不 訪 設 Z 1 對 應 的 概 率 最 大 ≤ n Pr ( Z 1 < 2 1 n m ) ( 1 )
≤ n [ e − 1 2 ( 1 / 2 ) 1 / 2 ] m / n = n [ 2 / e ] m / 2 n = n [ 2 / e ] 4 ln n = n 0. 3 ln n = n e − 1.2 ln n = O ( 1 ) ( m / n = 8 ln n ) \leq n[\frac{e^{-\frac{1}{2}}}{(1/2)^{1/2}}]^{m/n}=n[2/e]^{m/2n}=n[2/e]^{4 \ln n}=n0.3^ {\ln n}=ne^{-1.2 \ln n}
\\=O(1)
(\quad m/n=8\ln n) ≤ n [ ( 1 / 2 ) 1 / 2 e − 2 1 ] m / n = n [ 2 / e ] m / 2 n = n [ 2 / e ] 4 ln n = n 0 . 3 ln n = n e − 1 . 2 ln n = O ( 1 ) ( m / n = 8 ln n )