常用监控指标及调优步骤

原創

2020-06-16 12:45

诊断性能问题，需要清楚监控的关键指标，以此辅助试验诊断，最后验证推测。

常用监控的关键指标

通常情况下，性能测试监控指标主要分为：资源指标和系统指标。

资源指标：

CPU使用率：指单位时间内进程使用cpu时间的百分比，这是对一个时间段内CPU使用状况的统计，通过这个指标可以看出在某一个时间段内CPU被占用的情况，如果被占用时间很高，那么就需要考虑CPU是否已经处于超负荷运作，长期超负荷运作对于机器本身来说是一种损害，因此必须将CPU的利用率控制在一定的比例下，以保证机器的正常运作。，长时间高负载的情况下，一般可接受上限不超过75%。

内存占用率：一般可接受上限不超过75%。

load average(linux)：是在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息，也就是CPU使用队列的长度的统计信息。一般可接受上限不超过系统核心数的2倍。查看CPU core 命令：grep 'model name' /proc/cpuinfo | wc -l

磁盘I/O: 磁盘主要用于存取数据，因此当说到IO操作的时候，就会存在两种相对应的操作，存数据的时候对应的是写IO操作，取数据的时候对应的是是读IO操作，一般使用% Disk Time（磁盘用于读写操作所占用的时间百分比）度量磁盘读写性能。

网络带宽：一般使用计数器Bytes Total/sec来度量，Bytes Total/sec表示为发送和接收字节的速率，包括帧字符在内。判断网络连接速度是否是瓶颈，可以用该计数器的值和目前网络的带宽比较。

系统指标：

TPS：每秒钟系统能够处理的交易或事务的数量。它是衡量系统处理能力的重要指标，TPS应该是一个比较平稳的曲线，而不是上下波动。

平均响应时间：系统处理事务的响应时间的平均值。事务的响应时间是从客户端提交访问请求到客户端接收到服务器响应所消耗的时间。对于系统快速响应类页面，一般简单业务处理不超过3秒，复杂业务处理不超过5秒。对于接口，要求的事务处理能力比较高，响应时间就更短

事务失败率：性能测试中，定义事务用于度量一个或者多个业务流程的性能指标，如用户登录、保存订单、提交订单操作均可定义为事务。事务失败率指在性能测试中失败的事务与事务总数的百分比，对于要求很高的事务，要求失败率为0%，一般的事务，失败率应控制在0.1%以内。

确定清晰的性能目标，并按优先级排列。

利用科学的测试工具对应用程序进行测试，并记录测试结果。

把分布式系统拆分成组件：Web层、业务层、集成层、以及网络传输时间，分别进行调优。

有系统的科学调优

遵循一定的程序：测试性能→找出瓶颈→假设造成瓶颈的因素→测试假设是否成立→修改应用→再次测试性能。

确定影响性能的因素：CPU、Memory还是IO。

找出主要的瓶颈，首先解决最容易的，再重复测试。

一次修改一个瓶颈，不要对不需要的地方进行调优。

提高CPU性能：更快的代码、SQL，更好的算法，减少短期生存的对象。

提高内存性能：减少或减小长期生存的对象。

提高IO性能：重新设计应用，减少IO的交互。

优化完成之后，进行QA测试。

在代码中记录优化的地方，并对旧代码进行注释。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

阿里云 MaxCompute 2020-10 月刊

【10月新功能發佈】 1、MaxCompute 支持 sort by 不帶 distribute by MaxCompute 支持 sort by 不帶 distribute by，提供數據重排的解決方案，提高SQL執行的過濾性能。適用客

2020-11-09 12:19:53

数据湖 VS 数据仓库之争？阿里提出大数据架构新概念：湖仓一体

隨着近幾年數據湖概念的興起，業界對於數據倉庫和數據湖的對比甚至爭論就一直不斷。有人說數據湖是下一代大數據平臺，各大雲廠商也在紛紛的提出自己的數據湖解決方案，一些雲數倉產品也增加了和數據湖聯動的特性。但是數據倉庫和數據湖的區別到底是什麼，是技

雲棲號資訊小哥

2020-10-15 15:34:46

Serverless Spark的弹性利器 - EMR Shuffle Service

背景與動機計算存儲分離下的剛需計算存儲分離是雲原生的重要特徵。通常來講，計算是CPU密集型，存儲是IO密集型，他們對於硬件配置的需求是不同的。在傳統計算存儲混合的架構中，爲了兼顧計算和存儲，CPU和存儲設備都不能太差，因此犧牲了靈活性，

雲棲號資訊小哥

2020-09-28 14:28:49

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

什麼是CDC Change Data Capture(CDC)用來跟蹤捕獲數據源的數據變化，並將這些變化同步到目標存儲(如數據湖或數據倉庫)，用於數據備份或後續分析，同步過程可以是分鐘/小時/天等粒度，也可以是實時同步。CDC方案分爲侵入式

雲棲號資訊小哥

2020-09-27 14:01:53

云原生计算引擎挑战与解决方案

雲原生背景介紹與思考圖一是基於ECS底座的EMR架構，這是一套非常完整的開源大數據生態，也是近10年來每個數字化企業必不可少的開源大數據解決方案。主要分爲以下幾層： ECS物理資源層，也就是Iaas層數據接入層，例如實時的Kafka，

雲棲號資訊小哥

2020-09-27 14:01:53

多引擎集成挖掘湖上数据价值

數據湖已經逐步走到了精細化的管理，這意味着原始的計算引擎直接讀寫存儲的方式應當逐步演變爲使用標準方式讀寫數據湖存儲。然而“標準方式”實際上並無業界標準，與具體的計算引擎深度綁定，因此，支持計算引擎的豐富程度也就成了衡量數據湖的一個準則。阿

雲棲號資訊小哥

2020-09-24 16:28:50

数据湖架构，为什么需要“湖加速”？

在開源大數據領域，存儲/計算分離已經成爲共識和標準做法，數據湖架構成爲大數據平臺的首要選擇。基於這一範式，大數據架構師需要考慮三件事情：第一，選擇什麼樣的存儲系統做數據湖(湖存儲)？第二，計算和存儲分離後，出現了性能瓶頸，計算如何

雲棲號資訊小哥

2020-09-23 17:34:56

用尽每一寸GPU，阿里云cGPU容器技术白皮书重磅发布！

背景雲原生已經成爲業內雲服務的一個趨勢。在雲原生上支持異構計算，這個功能在標準的Docker上已經可以很好的支持了。爲了進一步提高GPU的利用率、避免算力浪費，需要在單個GPU上可以運行多個容器，並且在多個容器間隔離GPU應用，這在標準的

雲棲號資訊小哥

2020-09-21 16:55:50

估值百亿独角兽爱学习教育集团：通过云原生实践与时间赛跑

作者：山獵愛學習教育集團的前身爲高思教育，成立於2009年，以中小學課外培訓起家，曾經的定位是K12培訓機構；2014年，愛學習教育集團發力B端市場，目前在2B領域獲得了全國各地辦學機構的廣泛認可，由K12培訓機構升級爲K12教育供給

雲棲號資訊小哥

2020-09-14 15:10:51

mPaaS：全新移动开发平台，只为打造性能更优越的App

mPaaS 是源自於支付寶的移動開發平臺，爲移動開發、測試、運營及運維提供雲到端的一站式解決方案。產品能力全面覆蓋「跨端開發框架、研發協同、數字化運營、智能營銷、後端連接」等場景，目前已服務 12306、上海地鐵、廣發銀行、華夏銀行、C

雲棲號資訊小編

2020-09-04 14:13:47

阿里云原生十年磨剑：让企业在数字经济时代焕发生命力

日前，國際知名諮詢機構 Gartner 發佈了最新雲廠商產品評估報告，作爲亞洲唯一入選的雲廠商，阿里雲在計算大類中，以 92.3% 的高得分率拿下全球第一，並且刷新了該項目的歷史最佳成績。本次報告，Gartner 更多關注雲原生領域，比

雲棲號資訊小編

2020-08-31 11:19:52

震惊！Redis 的字符串居然是这样实现的…

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！之前本人在找工作面試時在Redis相關問題上可栽了跟頭。在面試前按常規套路準備了一下，比如 Redis 的常用5種數據結構，Redis持久化

雲棲號資訊小哥

2020-08-06 12:10:50

一文讲透“进程，线程和协程”

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！本文從操作系統原理出髮結合代碼實踐講解了以下內容：什麼是進程，線程和協程？它們之間的關係是什麼？爲什麼說Python中的多線程是僞

雲棲號資訊小哥

2020-08-05 15:37:51

边缘AI在智能家居人机界面(HMI)中的应用

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！消費者對於改進其便利性、安全性和用戶體驗的進步有着無法滿足的胃口。我們看到，人機界面(human-machine interface，HMI

雲棲號資訊小哥

2020-08-05 13:49:49

物联网和远程办公

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！最近幾個月，遠程辦公幾乎席捲了每個組織。鑑於冠狀病毒大流行病尚未結束，很顯然，那些讓員工在家辦公的企業現在需要採取長期措施。甚至在限制解除並

雲棲號資訊小哥

2020-08-04 13:13:52

24小時熱門文章

最新文章

最新評論文章