編程之美系列之二——尋找出現頻率超過一半的數

問題描述:

       現在有一數組存放int型整數,數字有重複,且有一數字出現的頻率超過了50%,請找出這個數字。

       補充:主要考慮數據量很大的情況。

 

問題求解:

分析:

      最直接的方法就是對數組中所有的數字排序,然後再掃描一遍,統計各個數字出現的次數,如果某個數字出現的次數超過一半,則輸出這個數字。顯然這個算法的時間複雜度是O(N * log2N + N)。

      事實上,假如現在數組已經有序,那麼數組中間的數字一定是這個要求的數字,所以根本不必掃描。此時算法的時間複雜度是O(N * log2N + 1)。那還能不能再簡化一些呢?

      我們看到,算法主要的消耗在排序這塊,那能否跳過排序這個步驟呢?我們這樣想,假如每次刪除兩個不同的數(不管包括不包括最高頻數),那麼,在剩下的數字裏,原最高頻數出現的頻率一樣超過了50%,不斷重複這個過程,最後剩下的將全是同樣的數字,即最高頻數。此算法避免的排序,時間複雜度只爲O(N)。

代碼如下:

 static int FindMostApperse(int[] num)
        {
            int candidate = 0;
            int count = 0;
            for (int i = 0; i < num.Length; i++)
            {
                if (count == 0)
                { 
                    candidate = num[i];
                    count = 1;
                }
                else
                {
                    if (candidate == num[i])
                        count++;
                    else
                        count--;
                }
            }
            return candidate;
        }

 

      這個算法體現了計算機科學中一種很普遍的思想,就是把一個問題轉化爲規模較小的若干個問題。分治、遞歸、貪心等都是基於這樣的思想。轉化的效率越高,轉化之後問題的規模縮小的越快,則正題的時間複雜度越低。

 

擴展問題:

      現在數組中沒有出現頻率一半的數字了,但有三個都超過了四分之一,找到他們。

分析:

      與原問題一樣,只要降低規模即可,每次去掉四個不相同的數字,一直重複,最後剩下的三個數字就是答案。

代碼如下:

static int candiA = 0, candiB = 0, candiC = 0;
        static void FindThreeMost(int[] num)
        {
            int countA = 0, countB = 0, countC = 0;
            for (int i = 0; i < num.Length; i++)
            {          
                if (countA == 0 || countB == 0 || countC == 0 )
                {                   
                    if (countA == 0)
                    {
                        if (countB != 0 && num[i] == candiB)
                            countB++;
                        else if (countC != 0 && num[i] == candiC)
                            countC++;
                        else
                        {
                            candiA = num[i];
                            countA++;
                        }
                    }
                    else if (countB == 0)
                    {
                        if (countA != 0 && num[i] == candiA)
                            countA++;
                        else if (countC != 0 && num[i] == candiC)
                            countC++;
                        else
                        {
                            candiB = num[i];
                            countB++;
                        }
                    }
                    else if (countC == 0)
                    {
                        if (countA != 0 && num[i] == candiA)
                            countA++;
                        else if (countB != 0 && num[i] == candiB)
                            countB++;
                        else
                        {
                            candiC = num[i];
                            countC++;
                        }
                    }
                }

                else
                {
                    if (num[i] == candiA)
                        countA++;
                    else if (num[i] == candiB)
                        countB++;
                    else if (num[i] == candiC)
                        countC++;
                    else
                    {
                        countA--;
                        countB--;
                        countC--;
                    }
                }
            }
        }

 

      此算法的時間複雜度仍爲O(N),只是判斷條件較多,歡迎大家拿出更簡明的代碼來討論。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章