低頻詞過濾

低頻詞過濾

題目描述:請編寫程序,從包含大量單詞的文本中刪除出現次數最少的單詞。如果有多
個單詞都出現最少的次數,則將這些單詞都刪除。

輸入數據:程序讀入已被命名爲 corpus.txt 的一個大數據量的文本文件,該文件包含英
文單詞和中文單詞,詞與詞之間以一個或多個 whitespace 分隔。(爲便於調試,您可下載
測試 corpus.txt 文件,實際運行時我們會使用不同內容的輸入文件。)

輸出數據:在標準輸出上打印刪除了 corpus.txt 中出現次數最少的單詞之後的文本(
詞與詞保持原來的順序,仍以空格分隔)。

 

分析:刪除出現最少單詞數目的單詞,文本按照原先的順序輸出

 

需要兩邊掃描:第一遍,確定低頻詞,第二遍,非低頻詞輸出到標準終端

使用數據結構:Set(需要自己設計存儲的內容和比較函數)或者map,如果使用java語言,使用TreeSet或者TreeMap。統計詞頻。然後找出最少次數的詞。

本文代碼略

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章