在編寫爬蟲代碼的過程中,程序員會使用redis 集合進行去重,今天就測試一下redis去重需要多少內存的問題
過程:我們對1-10w,1-100w,1-1000w 的數字進行 md5 加密,生成唯一的32位字符串,然後存入到redis集合中去,通過rdm 的 內存分析佔用查看redis的大小。
1. 對10w 數據去查,查看大小
2. 對100w 數據去查,查看大小
3. 對1000w 數據去查,查看大小
4. 對 2000w 數據去查,查看大小
總結:
繪製一個圖表展示一下吧
當需要去重的數據量達到1億的時候,需要的內存是7GB左右,如果要是有50億條數據,redis去重還是一個好的解決方案嗎?
最後對自己想說的是:百想不如一測