redis集群使用HashMap优化键值存储结构提升存储性能

项目中遇到Spark Streaming吞吐量太低的问题,redis集群使用HashMap优化键值存储结构提升Spark Streaming吞吐量。

场景:
设备将运行报文发送到kafka,Spark Streaming对报文进行加工处理,生成6类不同报文信息以json字符串形式set进redis集群。

问题:
kafka消费速度跟不上。

分析:
对于1000万设备一个上报周期上报1000万条报文,极端情况下同时上报,Spark Streaming消费1000万条报文,生成6000万个键值对存储入redis集群。
优化思路,降低Spark Streaming操作redis的频率,降低key的数量。提升Spark Streaming吞吐量,提升redis集群的查询速度以及后续key的更新速度。计划使用HashMap结构将6类json报文的属性提取出来作为HashMap的field。

测试:
相同集群环境下set操作和hset操作均使用基于Lettuce的Spring data redis客户端。使用pipliene的方式进行命令提交。每批处理命令1000条。
set模式使用3个json报文共32个属性,hset模式使用一个相同32属性的Map。则set模式下存储报文量为hset模式下的3倍。

结果:

set hset 速度提升
10万数量级场景 1.3min(30万) 51s(10万) 34%
100万数量级场景 1.3min(300万) 51s(100万) 27%
1000万数量级场景 1.789hours(3000万) 1.295hous(1000万) 27%

结论:
使用HashMap结构降低redsi集群键值数量可以提升存储性能,提升Spark Streaming吞吐量。提升预估20%~30%,待现网验证,补充结果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章