求素數的優化算法

1. 根據概念判斷:

如果一個正整數只有兩個因子, 1和p,則稱p爲素數.
代碼:
bool isPrime(int n) { if(n < 2) return false; for(int i = 2; i < n; ++i) if(n%i == 0) return false; return true; }
時間複雜度O(n).


2. 改進, 去掉偶數的判斷

代碼:
bool isPrime(int n) { if(n < 2) return false; if(n == 2) return true; for(int i = 3; i < n; i += 2) if(n%i == 0) return false; return true; }

時間複雜度O(n/2), 速度提高一倍.


3. 進一步減少判斷的範圍

定理: 如果n不是素數, 則n有滿足1<d<=sqrt(n)的一個因子d.
證明: 如果n不是素數, 則由定義n有一個因子d滿足1<d<n.
如果d大於sqrt(n), 則n/d是滿足1<n/d<=sqrt(n)的一個因子.

代碼:
bool isPrime(int n) { if(n < 2) return false; if(n == 2) return true; for(int i = 3; i*i <= n; i += 2) if(n%i == 0) return false; return true; }
時間複雜度O(sqrt(n)/2), 速度提高O((n-sqrt(n))/2).

  

4. 剔除因子中的重複判斷.
例如: 11%3 != 0 可以確定 11%(3*i) != 0.

定理: 如果n不是素數, 則n有滿足1<d<=sqrt(n)的一個"素數"因子d.
證明: I1. 如果n不是素數, 則n有滿足1<d<=sqrt(n)的一個因子d.
I2. 如果d是素數, 則定理得證, 算法終止.
I3. 令n=d, 並轉到步驟I1.

由於不可能無限分解n的因子, 因此上述證明的算法最終會停止.

代碼:
// primes[i]是遞增的素數序列: 2, 3, 5, 7, ... // 更準確地說primes[i]序列包含1->sqrt(n)範圍內的所有素數 bool isPrime(int primes[], int n) { if(n < 2) return false; for(int i = 0; primes[i]*primes[i] <= n; ++i) if(n%primes[i] == 0) return false; return true; }
假設n範圍內的素數個數爲PI(n), 則時間複雜度O(PI(sqrt(n))).

函數PI(x)滿足素數定理: ln(x)-3/2 < x/PI(x) < ln(x)-1/2, 當x >= 67時.

因此O(PI(sqrt(n)))可以表示爲O(sqrt(x)/(ln(sqrt(x))-3/2)),

O(sqrt(x)/(ln(sqrt(x))-3/2))也是這個算法的空間複雜度.


5. 構造素數序列primes[i]: 2, 3, 5, 7, ...

由4的算法我們知道, 在素數序列已經被構造的情況下, 判斷n是否爲素數效率很高;

但是, 在構造素數序列本身的時候, 是否也可是達到最好的效率呢?

事實上這是可以的! -- 我們在構造的時候完全可以利用已經被構造的素數序列!

假設我們已經我素數序列: p1, p2, .. pn

現在要判斷pn+1是否是素數, 則需要(1, sqrt(pn+1)]範圍內的所有素數序列,

而這個素數序列顯然已經作爲p1, p2, .. pn的一個子集被包含了!

代碼:
// 構造素數序列primes[] void makePrimes(int primes[], int num) { int i, j, cnt; primes[0] = 2; primes[1] = 3; for(i = 5, cnt = 2; cnt < num; i += 2) { int flag = true; for(j = 1; primes[j]*primes[j] <= i; ++j) { if(i%primes[j] == 0) { flag = false; break; } } if(flag) primes[cnt++] = i; } }
makePrimes的時間複雜度比較複雜, 而且它只有在初始化的時候才被調用一次.

在一定的應用範圍內, 我們可以把近似認爲makePrimes需要常數時間.

在後面的討論中, 我們將探討一種對計算機而言更好的makePrimes方法.


6. 更好地利用計算機資源...

當前的主流PC中, 一個整數的大小爲2^32. 如果需要判斷2^32大小的數是否爲素數,

則可能需要測試[2, 2^16]範圍內的所有素數(2^16 == sqrt(2^32)).

由4中提到的素數定理我們可以大概確定[2, 2^16]範圍內的素數個數.

由於2^16/(ln(2^16)-1/2) = 6138, 2^16/(ln(2^16)-3/2) = 6834,

我們可以大概估計出[2, 2^16]範圍內的素數個數6138 < PI(2^16) < 6834.

在對[2, 2^16]範圍內的素數進行統計, 發現只有6542個素數:

p_6542: 65521, 65521^2 = 4293001441 < 2^32, (2^32 = 4294967296)
p_6543: 65537, 65537^2 = 4295098369 > 2^32, (2^32 = 4294967296)

在實際運算時unsigned long x = 4295098369;將發生溢出, 爲131073.

在程序中, 我是採用double類型計算得到的結果.

分析到這裏我們可以看到, 我們只需要緩衝6543個素數, 我們就可以採用4中的算法

高效率地判斷[2, 2^32]如此龐大範圍內的素數!

(原本的2^32大小的問題規模現在已經被減小到6543規模了!)

雖然用現在的計算機處理[2, 2^16]範圍內的6542個素數已經沒有一點問題,

雖然makePrimes只要被運行一次就可以, 但是我們還是考慮一下是否被改進的可能?!

我想學過java的人肯定想把makePrimes作爲一個靜態的初始化實現, 在C++中也可以

模擬java中靜態的初始化的類似實現:

#define NELEMS(x) ((sizeof(x)) / (sizeof((x)[0])))

static int primes[6542+1];
static struct _Init { _Init(){makePrimes(primes, NELEMS(primes);} } _init;

如此, 就可以在程序啓動的時候自動掉用makePrimes初始化素數序列.

但, 我現在的想法是: 爲什麼我們不能在編譯的時候調用makePrimes函數呢?

完全可以!!! 代碼如下:

代碼:
// 這段代碼可以由程序直接生成 const static int primes[] = { 2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97,101,103, 107,109,113,127,131,137,139,149,151,157,163,167,173,179,181,191,193,197,199,211, 223,227,229,233,239,241,251,257,263,269,271,277,281,283,293,307,311,313,317,331, 337,347,349,353,359,367,373,379,383,389,397,401,409,419,421,431,433,439,443,449, 457,461,463,467,479,487,491,499,503,509,521,523,541,547,557,563,569,571,577,587, 593,599,601,607,613,617,619,631,641,643,647,653,659,661,673,677,683,691,701,709, 719,727,733,739,743,751,757,761,769,773,787,797,809,811,821,823,827,829,839,853, 857,859,863,877,881,883,887,907,911,919,929,937,941,947,953,967,971,977,983,991, ... 65521, 65537 };
有點不可思議吧, 原本makePrimes需要花費的時間複雜度現在真的變成O(1)了!

(我覺得叫O(0)可能更合適!)

7. 二分法查找

現在我們緩存了前大約sqrt(2^32)/(ln(sqrt(2^32)-3/2))個素數列表, 在判斷2^32級別的

素數時最多也只需要PI(sqrt(2^32))次判斷(準確值是6543次), 但是否還有其他的方式判斷呢?

當素數比較小的時候(不大於2^16), 是否可以直接從緩存的素數列表中直接查詢得到呢?

答案是肯定的! 由於primes是一個有序的數列, 因此我們當素數小於2^16時, 我們可以直接

採用二分法從primes中查詢得到(如果查詢失敗則不是素數).

代碼:
// 缺少的代碼請參考前邊 #include <stdlib.h> static bool cmp(const int *p, const int *q) { return (*p) - (*q); } bool isPrime(int n) { if(n < 2) return false; if(n == 2) return true; if(n%2 == 0) return false; if(n >= 67 && n <= primes[NELEMS(primes)-1]) { return NULL != bsearch(&n, primes, NELEMS(primes), sizeof(n), cmp); } else { for(int i = 1; primes[i]*primes[i] <= n; ++i) if(n%primes[i] == 0) return false; return true; } }
時間複雜度:

if(n <= primes[NELEMS(primes)-1] && n >= 67): O(log2(NELEMS(primes))) < 13;
if(n > primes[NELEMS(primes)-1]): O(PI(sqrt(n))) <= NELEMS(primes).

8. 素數定理+2分法查找

在7中, 我們對小等於primes[NELEMS(primes)-1]的數採用2分法查找進行判斷.

我們之前針對2^32緩衝的6453個素數需要判斷的次數爲13次(log2(1024*8) == 13).

對於小的素數而言(其實就是2^16範圍只內的數), 13次的比較已經完全可以接受了.

不過根據素數定理: ln(x)-3/2 < x/PI(x) < ln(x)-1/2, 當x >= 67時, 我們依然

可以進一步縮小小於2^32情況的查找範圍(現在是0到NELEMS(primes)-1範圍查找).

我們需要解決問題是(n <= primes[NELEMS(primes)-1):

如果n爲素數, 那麼它在素數序列可能出現的範圍在哪?

---- (n/(ln(n)-1/2), n/(ln(n)-3/2)), 即素數定理!

上面的代碼修改如下:

代碼:
bool isPrime(int n) { if(n < 2) return false; if(n == 2) return true; if(n%2 == 0) return false; int hi = (int)ceil(n/(ln(n)-3/2)); if(n >= 67 && hi < NELEMS(primes)) { int lo = (int)floor(n/(ln(n)-1/2)); return NULL != bsearch(&n, primes+lo, hi-lo, sizeof(n), cmp); } else { for(int i = 1; primes[i]*primes[i] <= n; ++i) if(n%primes[i] == 0) return false; return true; } }
時間複雜度:

if(n <= primes[NELEMS(primes)-1] && n >= 67): O(log2(hi-lo))) < ???;
if(n > primes[NELEMS(primes)-1]): O(PI(sqrt(n))) <= NELEMS(primes).


9. 打包成素數庫(給出全部的代碼)

到目前爲止, 我已經給出了我所知道所有改進的方法(如果有人有更好的算法感謝告訴我).

這裏需要強調的一點是, 這裏討論的素數求法是針對0-2^32範圍的數而言, 至於像尋找

成百上千位大小的數不在此討論範圍, 那應該算是純數學的內容了.

代碼保存在2個文件: prime.h, prime.cpp.
代碼:
// file: prime.h #ifndef PRIME_H_2006_10_27_ #define PRIME_H_2006_10_27_ extern int Prime_max(void); // 素數序列的大小 extern int Prime_get (int i); // 返回第i個素數, 0 <= i < Prime_max extern bool Prime_test(int n); // 測試是否是素數, 1 <= n < INT_MAX #endif /////////////////////////////////////////////////////// // file: prime.cpp #include <assert.h> #include <limits.h> #include <math.h> #include <stdlib.h> #include "prime.h" // 計算數組的元素個數 #define NELEMS(x) ((sizeof(x)) / (sizeof((x)[0]))) // 素數序列, 至少保存前6543個素數! static const int primes[] = { 2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97,101,103, 107,109,113,127,131,137,139,149,151,157,163,167,173,179,181,191,193,197,199,211, 223,227,229,233,239,241,251,257,263,269,271,277,281,283,293,307,311,313,317,331, 337,347,349,353,359,367,373,379,383,389,397,401,409,419,421,431,433,439,443,449, 457,461,463,467,479,487,491,499,503,509,521,523,541,547,557,563,569,571,577,587, 593,599,601,607,613,617,619,631,641,643,647,653,659,661,673,677,683,691,701,709, 719,727,733,739,743,751,757,761,769,773,787,797,809,811,821,823,827,829,839,853, 857,859,863,877,881,883,887,907,911,919,929,937,941,947,953,967,971,977,983,991, ... 65521, 65537 }; // bsearch的比較函數 static int cmp(const void *p, const void *q) { return (*(int*)p) - (*(int*)q); } // 緩衝的素數個數 int Prime_max() { return NELEMS(primes); } // 返回第i個素數 int Prime_get(int i) { assert(i >= 0 && i < NELEMS(primes)); return primes[i]; } // 測試n是否是素數 bool Prime_test(int n) { assert(n > 0); if(n < 2) return false; if(n == 2) return true; if(!(n&1)) return false; // 如果n爲素數, 則在序列hi位置之前 int lo, hi = (int)ceil(n/(log(n)-3/2.0)); if(hi < NELEMS(primes)) { // 確定2分法查找的範圍 // 只有n >= 67是才滿足素數定理 if(n >= 67) lo = (int)floor(n/(log(n)-1/2.0)); else { lo = 0; hi = 19; } // 查找成功則爲素數 return NULL != bsearch(&n, primes+lo, hi-lo, sizeof(n), cmp); } else { // 不在保存的素數序列範圍之內的情況 for(int i = 1; primes[i]*primes[i] <= n; ++i) if(n%primes[i] == 0) return false; return true; } }
10. 回顧, 以及推廣

到這裏, 關於素數的討論基本告一段落. 回顧我們之前的求解過程, 我們會發現

如果缺少數學的基本知識會很難設計好的算法; 但是如果一味地只考慮數學原理,

而忽律了計算機的本質特徵, 也會有同樣的問題.

發佈了36 篇原創文章 · 獲贊 12 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章