Coupon Collector's Problem高級算法設計

1 Geometric Distribution

用X表示n 次投擲coin（獨立伯努力分佈）中，首次出現正面時，投擲的次數，X可能的取值爲1，2，3，。。。N，假設每次正面的概率爲1/2（一般化可設爲p）

具體參考

2 Coupon Collector’s Problem（CCP）

2.1關注點

CCP關注的是分散，與Balls of Bin 問題不同（其關注的是會不會集中，集中的程度有多少）

2.2 問題定義

設有采票 m張,需要集起n 種不同的類型，當集起n種類型的採票時，可以進行對獎或其它操作
當然可以抽象爲Balls of Bin 問題形式，其中所用有的m張採票爲m個球，要求集起的n張採票爲n個不同的盒子，因此可以問題定義爲m個球裝在不同的n個盒子裏，要求同一個盒子裝同一種採票，且每個盒子都必須裝滿。

2.2.1 具體說

定義問題 $Y 爲$ 當m 是什麼數量級時，使得n種採票 $Z_i$ 收集起：
即 $m=?\\ \min{Zi} >0$

定義問題 $Y_K$ 投入多少球(或採票（m的值）),才能使 $K$ 個不同的盒子裝（或收集起 $n$ 張不同的採票以對獎）
$m=?\\ \min Z_i>0 \\(i=0，1，2\dots K)\\(K\in n)$

3 解決 $Y_K$ 的求法

3.1 初始化

令 $Y_0$ =0,即不收集彩票，自然不需要採票，m=0
而 $Y_1$ =1

3.2 遞推公式

定義 $Y_k-Y_{k-1}=Z_k$ ,先思考如何由 $Y_{k-1}$ 求得 $Y_{k}$ ?
$Y_{k-1}$ 表示需要多少個球，才能使得n 個盒子中有 $k-1$ 個盒子被裝；
$Y_{k}$ 表示需要多少個球，才能使得n 個盒子中有 $k$ 個盒子被裝；

如圖紅色表示需要 $Y_{k-1}$ 個球裝在了n個盒子中的 $k-1$ 個，那麼計算需要 $Y_k$ 個球，裝下n 個盒子中的k個盒子時，只需將第k個球裝在剩下的n-k+1個盒子中。
定義 $p_k$ 表示第k個球恰好裝入n-k+1（黑色盒子）的概率， $1-p_k$ 表示進入k-1 個盒子中的概率，即有如下表達：
$p_k=\frac{n-k+1}{n}\\ \quad \\ 1-p_k=\frac{k-1}{n}\\$

那麼上面定義的 $Z_k$ 便有了具體的物理意義，即是第一節提到的幾何分佈，表示需要新增 $Z_k$ 個球（可以理解爲重複 $Z_k$ 次投擲coin ）才能使得有一個球不落入紅色部分的盒子中。

$伯努力分佈：擲硬幣=\left\{ \begin{aligned} p_k & & \ 正面，落入黑色部分\\ 1-p_k & & \ 反面，即落入紅色的部分\\ \end{aligned} \right.$
因此重複 $Z_k=z$ 次投擲＂coins＂首次落入黑色的部分可以根據二項分佈來計算: $Pr(Z_k=z)=(1-p_k)^{z-1}p_k$
而首次落入黑色部分平均需要投鄭幾次,即 $E{(Z_k)}=\frac{1}{p_k}$ ,其方差 $Var{(Z_k)}=\frac{1-p_k}{p_k^2}$

3.3 求問題Y

由具體的物理意義可知

$Y=Y_n=(Y_1-Y_0)+(Y_2-Y_1)+(Y_3-Y2)+(Y_4-Y_3)+\dots+(Y_n-Y_{n-1})\\ =Z_1+Z_2+Z_3+Z_4+ \dots+Z_n$

求Y的均值
$E(Y) =E(Z_1)+E(Z_2)+E(Z_3)+E(Z_4)+ \dots+E(Z_n)\\=\sum_{k=1}^n \frac{1}{p_k}\\=\sum_{k=1}^n\frac{n}{n-k+1}\\=n\sum_{k=1}^n\frac{1}{n-k+1}\\=n\sum_{k=1}^n\frac{1}{k}=nH_n(H_n爲調和級數Harmonic series，lnn+c)\\=nlnn+cn$
即 $Y \sim nlnn \pm\theta(n) with \quad high \quad probability$
$Y \sim ( n\ln n -cn,n\ln n +cn)\quad with \quad high \quad probability$
我們如果Y 的訪差較小，即可以將Y的界限定在bound E（Y）附近。
$Var(Y)=Var(Z_1+Z_2+Z_3+Z_4+ \dots+Z_n)$
$Z_k$ 服從獨立分佈
$Var(Y)=Var(Z_1+Z_2+Z_3+Z_4+ \dots+Z_n)\\ =\sum_{k=1}^n \frac{1-p_k}{p_k^2}=\sum_{k=1}^n \frac{1}{p_k^2}- \frac{1}{p_k}\\=\sum_{k=1}^n( \frac{n^2}{(n-k+1)^2}- \frac{n}{n-k+1})=\\=\sum_{k=1}^n\frac{n^2}{(n-k+1)^2}- \sum_{k=1}^n\frac{n}{n-k+1}=\\ =n^2\sum_{k=1}^n\frac{}{(n-k+1)^2}-n \sum_{k=1}^n\frac{1}{n-k+1}=\\ n^2\sum_{k=1}^n\frac{1}{k^2}-n \sum_{k=1}^n\frac{1}{k}=\\ \frac{\pi^2}{6}n^2-nlnn$
$Var(Y)\sim \theta(n^2)$

利用切比雪夫不等式
$\Pr\{|X-E(x)|\ge cn\}\le \frac{Var(Y)}{c^2n^2}=O(1)$

進一步思考

當 $m\sim\theta(n \ln n)時$ ，同時可以限定住 $\min Z_i$ , $\max Z_i$ ：即 $\min Z_i\sim \theta(\frac{m}{n})=\theta(\ln n)$
theorem
當 $m>c n\ln n=8n\ln n$ 時 $\min Z_i,\max Z_i\sim \theta(m/n) \\with \quad high \quad probability$
即證在m滿足上面條件時有 $Pr(\frac{1}{2}\frac{m}{n}\leq \min Z_i,\max Z_i \leq 2\frac{m}{n})=1-O(1)$

證明

要證 $Pr(\max Z_i \leq 2\frac{m}{n})=1-O(1)$ 即證 $1-Pr(\max Z_i \leq 2\frac{m}{n})=O(1)$
即證
$Pr(\max Z_i >2\frac{m}{n})=O(1)即它的上界爲小O(1)\\$
而 $Pr(\max Z_i >2\frac{m}{n})=\\Pr(Z_ 1>2\frac{m}{n})\bigcup Pr(Z_ 2>2\frac{m}{n})\bigcup \dots \bigcup Pr(Z_ n>2\frac{m}{n}) \\ \leq\sum_{i=1}^n Pr(Z_i >2\frac{m}{n})不訪設Z_1對應的概率最大 \\ \leq n\Pr(Z_1>2\frac{m}{n}) \quad \quad (1)$

定義0-1 變量

$X=\{X_1,X_2,\dots,X_i,\dots X_m\}$
$X_i=\left\{ \begin{aligned} 1 & & \ 第i個球落入第1個盒子中 \quad with \quad probability \quad \frac{1}{n} \\ 0 & & \ 第i 個球不落入第1個盒子 \quad with \quad probability \quad 1-\frac{1}{n}\\ \end{aligned} \right.$
因此 $Z_1= \sum_{i=1}^m X_i$
$E(Z_1)=\sum_{i=1}^mE(X_i)=\frac{m}{n}$
利用CherNoff’s Bound

而 $Pr(\max Z_i >2\frac{m}{n})= \leq n\Pr(Z_1>2\frac{m}{n}) \\ =n\Pr(Z_1>(1+1)\frac{m}{n}) \leq n\{\frac{e}{4}\}^{\frac{m}{n}}\\ （當m>8n\ln n 時即\frac{m}{n}=8\ln n） \\ \le n[\frac{e}{4}]^{8\ln n}=O(1)$

證明 $Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=1-O(1)$ 即證 $1-Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=O(1)$

即證

$Pr(\min Z_i <\frac{1}{2}\frac{m}{n})=O(1)即它的上界爲小O(1)\\$
而 $Pr(\max Z_i <\frac{1}{2}\frac{m}{n})=\\Pr(Z_ 1<\frac{1}{2}\frac{m}{n})\bigcup Pr(Z_ 2<\frac{1}{2}\frac{m}{n})\bigcup \dots \bigcup Pr(Z_ n<\frac{1}{2}\frac{m}{n}) \\ \leq\sum_{i=1}^n Pr(Z_i <\frac{1}{2}\frac{m}{n})\quad \quad 不訪設Z_1對應的概率最大 \\ \leq n\Pr(Z_1<\frac{1}{2}\frac{m}{n}) \quad \quad (1)$

$\leq n[\frac{e^{-\frac{1}{2}}}{（1/2）^{1/2}}]^{m/n}=n[2/e]^{m/2n}=n[2/e]^{4 \ln n}=n0.3^ {\ln n}=ne^{-1.2 \ln n} \\=O(1) (\quad m/n=8\ln n)$

Coupon Collector's Problem高級算法設計

1 Geometric Distribution

2 Coupon Collector’s Problem（CCP）

2.1關注點

2.2 問題定義

2.2.1 具體說

3 解決 $Y_K$ 的求法

3.1 初始化

3.2 遞推公式

3.3 求問題Y

進一步思考

證明

定義0-1 變量

證明 $Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=1-O(1)$ 即證 $1-Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=O(1)$

即證

開源高性能結構化日誌模塊NanoLog

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

leetcode 765（並叉集）

43 字符串相乘

378. 有序矩陣中第K小的元素(二分，歸併排序，優先隊列)

高級算法設計 --Proof that vertex cover is NP complete(將k-vertex團規約到k-vertex cover)

最大獨立集局部搜索算法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Coupon Collector's Problem高級算法設計

1 Geometric Distribution

2 Coupon Collector’s Problem（CCP）

2.1關注點

2.2 問題定義

2.2.1 具體說

3 解決YKY_KYK​的求法

3.1 初始化

3.2 遞推公式

3.3 求問題Y

進一步思考

證明

定義0-1 變量

證明Pr(min⁡Zi≥12mn)=1−O(1)Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=1-O(1)Pr(minZi​≥21​nm​)=1−O(1)即證1−Pr(min⁡Zi≥12mn)=O(1)1-Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=O(1)1−Pr(minZi​≥21​nm​)=O(1)

即證

3 解決 $Y_K$ 的求法

證明 $Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=1-O(1)$ 即證 $1-Pr(\min Z_i \geq \frac{1}{2}\frac{m}{n})=O(1)$