（12）取樣問題

一、簡介

問題描述：程序的輸入包含兩個整數m和n，其中m<n。輸出是0~n-1範圍內m個隨機整數的有序列表，不允許重複。從概率的角度說，我們希望得到沒有重複的有序選擇，其中每個選擇出現的概率相等。

（1）一般情況下，如果要從r個剩餘的整數中選出s個，我們以s/r的概率來選擇下一個數。如下僞代碼所示：

    select = m  
    remaining = n  
    for i = [0, n)  
      if (bigrand() % remaining) < select  
          print i  
          select—  
      remaining--

下面給出一個C++的實現：

void getknuth(int m, int n)
{
    for(int i = 0; i < n; i ++)
    {
        //select m of remaining n - i
        if(bigrand() % (n - i) < m)
        {
            cout << i << " ";
            m--;
        }
    }
    cout << endl;
}

（3）另一個解決方法是在一個初始爲空的集合裏插入隨機整數，直到個數足夠。僞代碼如下：

initialize set S to empty  
  size = 0  
  while size < m do  
      t = bigrand() % n  
      if t is not in S  
        insert t into S  
        size++  
  print the elements of S in sorted order

利用C++的標準模板庫實現如下所示：

void gensets(int m, int n)
{    
    set<int> S;
    set<int>::iterator i;
    while (S.size() < m) 
    {
        int t = bigrand() % n;
        S.insert(t);
    }
    for (i = S.begin(); i != S.end(); ++i)
    {
        cout << *i << " ";
    }
    cout << endl;
}

（3）生成隨機整數的有序子集的另一種方法時把包含整數0~n-1的數組順序打亂，然後把前m個元素排序輸出即可。

for i = [0, n)  
   swap(i, randint(i, n-1) )   // randint(i, j)從i...j範圍內均勻選擇的隨機整數的函數

其實在這個問題中，我們只需要打亂數組的前m個元素，對應的C++代碼如下所示：

void genshuf(int m, int n)
{    
    int i, j;
    int *x = new int[n];
    for (i = 0; i < n; i++)
    {
        x[i] = i;
    }
    for (i = 0; i < m; i++) 
    {
        j = randint(i, n-1);
        int t = x[i]; 
        x[i] = x[j]; 
        x[j] = t;
    }
    //排序數組中的前m個元素
    sort(x, x+m);
    for (i = 0; i < m; i++)
    {
        cout << x[i] << " ";
    }
    cout << endl;
}

二、原理

（1）正確理解所遇到的問題，即將問題抽象成能用數學或邏輯表示的命題；

（2）提煉出抽象問題，有助於我們把解決方案應用到其他問題中；

（3）考慮儘可能多的解法，多思考，然後會發覺寫代碼的時間會很短；

（4）實現一種解決方案。

三、習題

1、C庫函數rand()通常返回約15個隨機位，使用該函數實現函數bigrand()和randint(l,u)，前者返回至少30個隨機位，後者返回[l,u]範圍內的一個隨機整數，解答如下：

int bigrand() 
{ 
      return RAND_MAX*rand() + rand(); 
} 
int region(int l, int u)  //[l, u] 
{ 
      return l + rand() % (u - l + 1);
}

2、當m接近於n時，就集合的算法生成的很多隨機數都要丟棄，因爲他們之前已經存在於集合中了。能否給出一個算法，使得即使在隨壞情況下也能使用m個隨機數？

#include <iostream>
#include <set>
using namespace std;
void getSet(int m,int n)//在0 -- n-1 中挑選m個 隨機數  
{ 
    srand(time(NULL));//這個很關鍵  
    set<int> S;
    for(int i=n-m;i<n;++i)
    {
        int t=rand()%(i+1);
        if(S.find(t) == S.end())
                S.insert(t);
        else
                S.insert(i);
    }
    set<int>::iterator j;
    for(j=S.begin();j!=S.end();++j) 
    cout<<*j<<" ";  
} 
int main() 
{  
    getSet(5,10); 
    return 0; 
}

3、如何從n個對象中隨機選擇一個？具體說來，如何在實現不知道文本文件行數的情況下讀取該文件，從中隨機選擇並輸出一行？

我們總是選擇第一行，並用二分之一的概率選擇第二行，使用三分之一的概率選擇第三行，以此類推。在該過程結束的時候，每一行具有相同的選中概率（1/n，其中n是文件的總行數）：

    i = 0
    while more input lines
         with probability 1.0/++i
             choice = this input line  //如果前面做了選擇，並不會break，而是直到最後一個爲止。
    print choice

這裏比較有些疑惑的是第一行：總是選第一行爲什麼概率還是1/n？
概率=1*(1/2)*(2/3)*(3/4)……(n-1/n) =1/n。
證明：當做第i步選擇（選擇第i行）時，選擇該行的概率爲1/i，則不選擇的概率爲(i-1)/i，對於一篇有n行的文檔，現需證明最終選定第i行的概率爲1/n。
當最終選擇第i行，前（i-1）步的選擇對最終結果不會產生影響，第i步選擇的概率爲1/i，即選擇第i行，第（i+1～n）步中均採取不選擇的動作，即對於任意j(i+1<=j<=n)，當前步的概率爲(j-1)/j，那麼最終的概率爲：(1/i)*((i)/(i+1))*...*((n-1)/n) = 1/n。
以一篇只有6行的文檔爲例，最終選擇第2行的概率爲：1/2*(2/3)*(3/4)*(4/5)*(5/6) = 1/6。
擴展：原問題可簡化爲：如何從n個有序對象中等概率地任意抽取1個，簡記爲sample（n,1），其中n未知；
若將該問題改爲：如何從n個有序對象中等概率地任意抽取m個，簡記爲sample（n,m），其中n未知；
分析：若n已知，sample(n,m)是普通的抽樣問題；當n未知時，可否根據上述算法進行相應的轉化求解？
解決方案：將sample(n,m)問題轉化爲m個sample(n,1)問題，更具體一點是，轉化爲sample(n,1);sample(n-1,1);sample(n-2,1)....;sample(n-m+1,1)問題。

仍然以一篇6行文檔爲例，任取其中2行，做法如下：

第一遍，以如下概率選中一行：1(1) 2(1/2) 3(1/3) 4(1/4) 5(1/5) 6(1/6)，假設選中第2行，接着概率修改如下：3(1) 4(1/2) 5(1/3) 6(1/4) 1(1/5)。

說明：當選中第2行，從第3行開始修改概率，並將第2行排除在外，繼續掃描，這樣能保證在剩下的5個數中仍然以等概率抽取其中的一個。

（12）取樣問題

（5）RARP：逆地址解析協議

有關Linux文件描述符中的close on exec標誌位

（9）IP選路

Linux下管道使用的一些限制

（10）動態選路協議

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結