蓄水池採樣

參考:https://blog.csdn.net/huagong_adu/article/details/7619665

 

問題:如何隨機從n個對象中選擇一個對象,這n個對象是按序排列的,但是在此之前你是不知道n的值的。

        思路:如果我們知道n的值,那麼問題就可以簡單的用一個大隨機數rand()%n得到一個確切的隨機位置,那麼該位置的對象就是所求的對象,選中的概率是1/n。

        但現在我們並不知道n的值,這個問題便抽象爲蓄水池抽樣問題,即從一個包含n個對象的列表S中隨機選取k個對象,n爲一個非常大或者不知道的值。通常情況下,n是一個非常大的值,大到無法一次性把所有列表S中的對象都放到內存中。我們這個問題是蓄水池抽樣問題的一個特例,即k=1。

        解法:我們總是選擇第一個對象,以1/2的概率選擇第二個,以1/3的概率選擇第三個,以此類推,以1/m的概率選擇第m個對象。當該過程結束時,每一個對象具有相同的選中概率,即1/n,證明如下。

        證明:第m個對象最終被選中的概率P=選擇m的概率*其後面所有對象不被選擇的概率,即

                                                  

 

對應蓄水池抽樣問題,可以類似的思路解決。先把讀到的前k個對象放入“水庫”,對於第k+1個對象開始,以k/(k+1)的概率選擇該對象,以k/(k+2)的概率選擇第k+2個對象,以此類推,以k/m的概率選擇第m個對象(m>k)。如果m被選中,則隨機替換水庫中的一個對象。最終每個對象被選中的概率均爲k/n,證明如下。

        證明:第m個對象被選中的概率=選擇m的概率*(其後元素不被選擇的概率+其後元素被選擇的概率*不替換第m個對象的概率),即

                              

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章