記錄一次 MongoDB aggregate的性能優化經歷

原創

2020-03-05 14:05

在一臺配置爲2核4G的阿里雲服務器上，硬盤是普通的雲盤（即SATA盤），除mongoDB外，運行了若干個java應用，單節點mysql和redis，mongo的實際可用內存在1.5G左右。單表數據200萬條的時候，一個聚合函數響應時間約爲6秒，頁面端每秒請求一次，由於響應不夠及時，頁面刷新不及時，服務端堆積了大量的mongo aggregate請求，系統可用內存不足，直接導致了溢出，mongo服務被動shutdown。

mongod(ZN5mongo15printStackTraceERSo+0x41) [0x55bd3a2dd321]
mongod(ZN5mongo29reportOutOfMemoryErrorAndExitEv+0x84) [0x55bd3a2dc954]
mongod(ZN5mongo12mongoReallocEPvm+0x21) [0x55bd3a2d22b1]
mongod(ZN5mongo11BufBuilderINS21SharedBufferAllocatorEE15growreallocateEi+0x83) [0x55bd38981833]
mongod(ZN5mongo3rpc17OpMsgReplyBuilder22getInPlaceReplyBuilderEm+0x80) [0x55bd39d4b740]
mongod(+0xAB9609) [0x55bd389be609]
mongod(+0xABBA59) [0x55bd389c0a59]

下面是聚合的腳本，很簡單，就是統計某輛車多個狀態碼的最新值(通過$first實現)。

db.getCollection("vinMsgOut").aggregate([
  {"$match": {"vinCode": "LSGKR53L3HA149563"}},
  {"$sort": {"postTime" : -1}},
  {"$group":  {
      "_id": "$messageType",
      "resultValue": {"$first": "$resultValue"}
      }
  }
],{ allowDiskUse: true })

第一反應是增加過濾條件及增加索引。
結合業務，增加時間條件過濾，將$match改爲：

{"$match": {"vinCode": "LSGKR53L3HA149563", "createTime": {$gt: ISODate("2020-03-01T06:30:12.038Z")}}}

再分別爲vinCode和createTime創建索引，執行，依舊是6秒多。。。
將$sort的字段改成索引字段createTime，
{"$sort": {"createTime" : -1}}
再次執行，時間依舊是6秒多。。。

由於系統可分配內存有限，存儲引擎已經默認是最快的wiredTiger，磁盤也沒法更給力，只能從業務上再着手。考慮到這些最新狀態的出現，一般都是同一個時間段，狀態碼只有幾百個，如果sort之後，只從pipe取其中一部分進行group，會不會更快些？帶着這個疑問，我加了一條limit。

db.getCollection("vinMsgOut").aggregate([
  {"$match": {"vinCode": "LSGKR53L3HA149563", "createTime": {$gt: ISODate("2020-03-01T06:30:12.038Z")}}},
  {"$sort": {"createTime" : -1}},
  {"$limit": 1000},
  {"$group":  {
      "_id": "$messageType",
      "resultValue": {"$first": "$resultValue"}
      }
  }
],{ allowDiskUse: true })

結果是秒回！

去掉$match中的createTime條件，依舊秒回！這是否意味着createTime索引並沒有起作用？帶着疑問，將createTime索引刪掉，返現時間變成5秒，所以createTime的索引是有用的，用在$sort而已。綜上，完成了整個查詢的優化，總結下來就是：

$match條件需要增加索引，如果是多個，最好用組合索引；
$sort的字段也需要增加索引；
$group的_id也需要增加索引；
limit可以大幅度降低時耗。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

記錄一次 MongoDB aggregate的性能優化經歷

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

記錄一次 MongoDB aggregate的性能優化經歷

如何在交易數據中查詢各個版本交易量前三的股票？（MySQL分組排名）

長整型Long返回到前端，js出現精度丟失怎麼辦

事務的隔離級別和傳播級別有何區別

SpringBoot項目中的配置文件如何動態刷新

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結