.有一千萬條短信,有重複,以文本文件的形式保 請用5 分鐘時間,找出重複出現最多的前10 條。

此爲騰訊面試題,木有具體答案。。。

1、有一千萬條短信,有重複,以文本文件的形式保存,一行一條,有重複。 
請用5 分鐘時間,找出重複出現最多的前10 條。 

答:1000W條短信,每條最多140個字符,所有短信容量最大不會超過1.4G,符合現代大部分計算機配置要求。

所以可以用hashMap統計每條短信重複次數,然後用最大堆找出重複出現最多的前10條。


2、收藏了1 千萬條url,現在給你一條url,如何找出相似的url。

答:用編輯距離?求出編輯距離,用最小堆求出相似的?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章