此爲騰訊面試題,木有具體答案。。。
1、有一千萬條短信,有重複,以文本文件的形式保存,一行一條,有重複。
請用5 分鐘時間,找出重複出現最多的前10 條。
答:1000W條短信,每條最多140個字符,所有短信容量最大不會超過1.4G,符合現代大部分計算機配置要求。
所以可以用hashMap統計每條短信重複次數,然後用最大堆找出重複出現最多的前10條。
2、收藏了1 千萬條url,現在給你一條url,如何找出相似的url。
答:用編輯距離?求出編輯距離,用最小堆求出相似的?
此爲騰訊面試題,木有具體答案。。。
1、有一千萬條短信,有重複,以文本文件的形式保存,一行一條,有重複。
請用5 分鐘時間,找出重複出現最多的前10 條。
答:1000W條短信,每條最多140個字符,所有短信容量最大不會超過1.4G,符合現代大部分計算機配置要求。
所以可以用hashMap統計每條短信重複次數,然後用最大堆找出重複出現最多的前10條。
2、收藏了1 千萬條url,現在給你一條url,如何找出相似的url。
答:用編輯距離?求出編輯距離,用最小堆求出相似的?