低頻詞過濾
題目描述:請編寫程序,從包含大量單詞的文本中刪除出現次數最少的單詞。如果有多
個單詞都出現最少的次數,則將這些單詞都刪除。
輸入數據:程序讀入已被命名爲 corpus.txt 的一個大數據量的文本文件,該文件包含英
文單詞和中文單詞,詞與詞之間以一個或多個 whitespace 分隔。(爲便於調試,您可下載
測試
corpus.txt 文件,實際運行時我們會使用不同內容的輸入文件。)
輸出數據:在標準輸出上打印刪除了 corpus.txt 中出現次數最少的單詞之後的文本(
詞與詞保持原來的順序,仍以空格分隔)。
分析:刪除出現最少單詞數目的單詞,文本按照原先的順序輸出
需要兩邊掃描:第一遍,確定低頻詞,第二遍,非低頻詞輸出到標準終端
使用數據結構:Set(需要自己設計存儲的內容和比較函數)或者map,如果使用java語言,使用TreeSet或者TreeMap。統計詞頻。然後找出最少次數的詞。
本文代碼略