背景

線上某集羣峯值TPS超過100萬/秒左右(主要爲寫流量，讀流量很低)，峯值tps幾乎已經到達集羣上限，同時平均時延也超過100ms，隨着讀寫流量的進一步增加，時延抖動嚴重影響業務可用性。該集羣採用mongodb天然的分片模式架構，數據均衡的分佈於各個分片中，添加片鍵啓用分片功能後實現完美的負載均衡。集羣每個節點流量監控如下圖所示:

從上圖可以看出集羣流量比較大，峯值已經突破120萬/秒，其中delete過期刪除的流量不算在總流量裏面(delete由主觸發刪除，但是主上面不會顯示，只會在從節點拉取oplog的時候顯示)。如果算上主節點的delete流量，總tps超過150萬/秒。

軟件優化

在不增加服務器資源的情況下，首先做了如下軟件層面的優化，並取得了理想的數倍性能提升：

業務層面優化

Mongodb配置優化

存儲引擎優化

業務層面優化

該集羣總文檔近百億條，每條文檔記錄默認保存三天，業務隨機散列數據到三天後任意時間點隨機過期淘汰。由於文檔數目很多，白天平峯監控可以發現從節點經常有大量delete操作，甚至部分時間點delete刪除操作數已經超過了業務方讀寫流量，因此考慮把delete過期操作放入夜間進行，過期索引添加方法如下:

Db.collection.createIndex( { "expireAt": 1 }, { expireAfterSeconds: 0 } )

上面的過期索引中expireAfterSeconds=0，代表collection集合中的文檔的過期時間點在expireAt時間點過期，例如：

db.collection.insert( { //表示該文檔在夜間凌晨1點這個時間點將會被過期刪除 "expireAt": new Date('July 22, 2019 01:00:00'), "logEvent": 2, "logMessage": "Success!" } )

通過隨機散列expireAt在三天後的凌晨任意時間點，即可規避白天高峯期觸發過期索引引入的集羣大量delete，從而降低了高峯期集羣負載，最終減少業務平均時延及抖動。

Delete過期Tips1: expireAfterSeconds含義

在expireAt指定的絕對時間點過期，也就是12.22日凌晨2:01過期

Db.collection.createIndex( { "expireAt": 1 }, { expireAfterSeconds: 0 } )db.log_events.insert( { "expireAt": new Date(Dec 22, 2019 02:01:00'),"logEvent": 2,"logMessage": "Success!"})

在expireAt指定的時間往後推遲expireAfterSeconds秒過期，也就是當前時間往後推遲60秒過期

db.log_events.insert( {"createdAt": new Date(),"logEvent": 2,"logMessage": "Success!"} )Db.collection.createIndex( { "expireAt": 1 }, { expireAfterSeconds: 60 } )

Delete過期Tips2: 爲何mongostat只能監控到從節點有delete操作，主節點沒有？

原因是過期索引只在master主節點觸發，觸發後主節點會直接刪除調用對應wiredtiger存儲引擎接口做刪除操作，不會走正常的客戶端鏈接處理流程，因此主節點上看不到delete統計。

主節點過期delete後會生存對於的delete oplog信息，從節點通過拉取主節點oplog然後模擬對於client回放，這樣就保證了主數據刪除的同時從數據也得以刪除，保證數據最終一致性。從節點模擬client回放過程將會走正常的client鏈接過程，因此會記錄delete count統計，詳見如下代碼:

官方參考如下:https://docs.mongodb.com/manual/tutorial/expire-data/

Mongodb配置優化(網絡IO複用，網絡IO和磁盤IO做分離)

由於集羣tps高，同時整點有大量推送，因此整點併發會更高，mongodb默認的一個請求一個線程這種模式將會嚴重影響系統負載，該默認配置不適合高併發的讀寫應用場景。官方介紹如下:

Mongodb內部網絡線程模型實現原理

mongodb默認網絡模型架構是一個客戶端鏈接，mongodb會創建一個線程處理該鏈接fd的所有讀寫請求及磁盤IO操作。

Mongodb默認網絡線程模型不適合高併發讀寫原因如下:

在高併發的情況下，瞬間就會創建大量的線程，例如線上的這個集羣，連接數會瞬間增加到1萬左右，也就是操作系統需要瞬間創建1萬個線程，這樣系統load負載就會很高。

此外，當鏈接請求處理完，進入流量低峯期的時候，客戶端連接池回收鏈接，這時候mongodb服務端就需要銷燬線程，這樣進一步加劇了系統負載，同時進一步增加了數據庫的抖動，特別是在PHP這種短鏈接業務中更加明顯，頻繁的創建線程銷燬線程造成系統高負債。一個鏈接一個線程，該線程除了負責網絡收發外，還負責寫數據到存儲引擎，整個網絡I/O處理和磁盤I/O處理都由同一個線程負責，本身架構設計就是一個缺陷。

網絡線程模型優化方法

爲了適應高併發的讀寫場景，mongodb-3.6開始引入serviceExecutor: adaptive配置，該配置根據請求數動態調整網絡線程數，並儘量做到網絡IO複用來降低線程創建消耗引起的系統高負載問題。此外，加上serviceExecutor: adaptive配置後，藉助boost:asio網絡模塊實現網絡IO複用，同時實現網絡IO和磁盤IO分離。這樣高併發情況下，通過網絡鏈接IO複用和mongodb的鎖操作來控制磁盤IO訪問線程數，最終降低了大量線程創建和消耗帶來的高系統負載，最終通過該方式提升高併發讀寫性能。

網絡線程模型優化前後性能對比

在該大流量集羣中增加serviceExecutor: adaptive配置實現網絡IO複用及網絡IO與磁盤IO做分離後，該大流量集羣時延大幅度降低，同時系統負載和慢日誌也減少很多，具體如下:

優化前後系統負載對比

驗證方式：

該集羣有多個分片，其中一個分片配置優化後的主節點和同一時刻未優化配置的主節點load負載比較：

未優化配置的load

優化配置的load

優化前後慢日誌對比

驗證方式：

該集羣有多個分片，其中一個分片配置優化後的主節點和同一時刻未優化配置的主節點慢日誌數比較：

同一時間的慢日誌數統計：

未優化配置的慢日誌數(19621)：

優化配置後的慢日誌數(5222):

優化前後平均時延對比

驗證方式：

該集羣所有節點加上網絡IO複用配置後與默認配置的平均時延對比如下:

從上圖可以看出，網絡IO複用後時延降低了1-2倍。

wiredtiger存儲引擎優化

從上一節可以看出平均時延從200ms降低到了平均80ms左右，很顯然平均時延還是很高，如何進一步提升性能降低時延？繼續分析集羣，我們發現磁盤IO一會兒爲0，一會兒持續性100%，並且有跌0現象，現象如下:

從圖中可以看出，I/O寫入一次性到2G，後面幾秒鐘內I/O會持續性阻塞，讀寫I/O完全跌0，avgqu-sz、awit巨大，util次序性100%,在這個I/O跌0的過程中，業務方反應的TPS同時跌0。

此外，在大量寫入IO後很長一段時間util又持續爲0%，現象如下：

總體IO負載曲線如下:

從圖中可以看出IO很長一段時間持續爲0%，然後又飆漲到100%持續很長時間，當IO util達到100%後，分析日誌發現又大量滿日誌，同時mongostat監控流量發現如下現象：

從上可以看出我們定時通過mongostat獲取某個節點的狀態的時候，經常超時，超時的時候剛好是io util=100%的時候，這時候IO跟不上客戶端寫入速度造成阻塞。

有了以上現象，我們可以確定問題是由於IO跟不上客戶端寫入速度引起，第2章我們已經做了mongodb服務層的優化，現在我們開始着手wiredtiger存儲引擎層面的優化，主要通過以下幾個方面：

cachesize調整

髒數據淘汰比例調整

checkpoint優化

cachesize調整優化(爲何cacheSize越大性能越差)

於是查看mongod.conf配置文件，發現配置文件中配置的cacheSizeGB: 110G，可以看出，存儲引擎中KV總量幾乎已經達到110G，按照5%髒頁開始刷盤的比例，峯值情況下cachesSize設置得越大，裏面得髒數據就會越多，而磁盤IO能力跟不上髒數據得產生速度，這種情況很可能就是造成磁盤I/O瓶頸寫滿，並引起I/O跌0的原因。

此外，查看該機器的內存，可以看到內存總大小爲190G，其中已經使用110G左右，幾乎是mongod的存儲引起佔用，這樣會造成內核態的page cache減少，大量寫入的時候內核cache不足就會引起磁盤缺頁中斷，引起大量的寫盤。

解決辦法：通過上面的分析問題可能是大量寫入的場景，髒數據太多容易造成一次性大量I/O寫入，於是我們可以考慮把存儲引起cacheSize調小到50G，來減少同一時刻I/O寫入的量，從而規避峯值情況下一次性大量寫入的磁盤I/O打滿阻塞問題。

存儲引擎dirty髒數據淘汰優化

調整cachesize大小解決了5s請求超時問題，對應告警也消失了，但是問題還是存在，5S超時消失了，1s超時問題還是偶爾會出現。

因此如何在調整cacheSize的情況下進一步規避I/O大量寫的問題成爲了問題解決的關鍵，進一步分析存儲引擎原理，如何解決內存和I/O的平衡關係成爲了問題解決的關鍵，mongodb默認存儲因爲wiredtiger的cache淘汰策略相關的幾個配置如下:

調整cacheSize從120G到50G後，如果髒數據比例達到5%，則極端情況下如果淘汰速度跟不上客戶端寫入速度，這樣還是容易引起I/O瓶頸，最終造成阻塞。

解決辦法：如何進一步減少持續性I/O寫入，也就是如何平衡cache內存和磁盤I/O的關係成爲問題關鍵所在。從上表中可以看出，如果髒數據及總內佔用存達到一定比例，後臺線程開始選擇page進行淘汰寫盤，如果髒數據及內存佔用比例進一步增加，那麼用戶線程就會開始做page淘汰，這是個非常危險的阻塞過程，造成用戶請求驗證阻塞。平衡cache和I/O的方法: 調整淘汰策略，讓後臺線程儘早淘汰數據，避免大量刷盤，同時降低用戶線程閥值，避免用戶線程進行page淘汰引起阻塞。優化調整存儲引起配置如下:

eviction_target: 75%

eviction_trigger：97%

eviction_dirty_target: %3

eviction_dirty_trigger：25%

evict.threads_min：8

evict.threads_min：12

總體思想是讓後臺evict儘量早點淘汰髒頁page到磁盤，同時調整evict淘汰線程數來加快髒數據淘汰，調整後mongostat及客戶端超時現象進一步緩解。

存儲引擎checkpoint優化調整

存儲引擎得checkpoint檢測點，實際上就是做快照，把當前存儲引擎的髒數據全部記錄到磁盤。觸發checkpoint的條件默認又兩個，觸發條件如下:

固定週期做一次checkpoint快照，默認60s

增量的redo log(也就是journal日誌)達到2G

當journal日誌達到2G或者redo log沒有達到2G並且距離上一次時間間隔達到60s，wiredtiger將會觸發checkpoint，如果在兩次checkpoint的時間間隔類evict淘汰線程淘汰的dirty page越少，那麼積壓的髒數據就會越多，也就是checkpoint的時候髒數據就會越多，造成checkpoint的時候大量的IO寫盤操作。如果我們把checkpoint的週期縮短，那麼兩個checkpoint期間的髒數據相應的也就會減少，磁盤IO 100%持續的時間也就會縮短。

checkpoint調整後的值如下:

checkpoint=(wait=25,log_size=1GB)

存儲引擎優化前後IO對比

通過上面三個方面的存儲引擎優化後，磁盤IO開始平均到各個不同的時間點，iostat監控優化後的IO負載如下: