本文來源於阿里雲-雲棲社區,原文點擊這裏。
目前就職雲和恩墨,南區交付工程師,有超過8年超大型數據庫管理經驗,擅長Oracle數據庫性能優化與升級遷移。
某省稅務核心業務系統在7月13日11-12點出現業務處理非常緩慢,偶爾出現卡住不動。某業務功能處理時間是平時的10倍以上。
已知情況:
- 近兩週開始,在白天業務高峯期業務系統會出現處理緩慢
- 數據庫層面出現大量latch:cache buffers chains等待會話
- 每次問題大概持續了30分鐘後,latch:cache buffers chains等待消失,業務恢復正常
- 緩慢期間系統CPU使用率達到80%
瞭解了以上信息後,我們首先獲取了故障期間1節點的awr信息,一小時的dbtime高達58,354 min。我們知道dbtime是數據庫實例會話花費時間的總和,那麼從dbtime上看,期間數據庫確實出現問題,會話發生了嚴重的等待。
Top等待事件中看到latch: cache buffers chains等待事件排列第1,佔據了dbtime 82%,等待次數1千萬以上,其平均等待時間達到238ms。其餘等待事件佔比很少。可以推斷cache
buffers chains事件跟本次故障有極強的相關性。因此我們接下來從該等待事件着手進行分析。