ganglia監控hadoop各項指標含義

監控指標大致如下：

default.shuffleInput

dfs.datanode

jvm

mapred.shuffleOutput

rpc

metricssystem

dfs.datanode.blockChecksumOp_avg_time 塊校驗平均時間
dfs.datanode.blockChecksumOp_num_ops 塊檢驗次數
dfs.datanode.blockReports_avg_time 塊報告平均時間
dfs.datanode.blockReports_num_ops 塊報告次數
dfs.datanode.block_verification_failures 塊驗證失敗次數
dfs.datanode.blocks_read 從硬盤讀塊總次數
dfs.datanode.blocks_removed 刪除塊數目
dfs.datanode.blocks_replicated 塊複製總次數
dfs.datanode.blocks_verified 塊驗證總次數
dfs.datanode.blocks_written 向硬盤寫塊總次數
dfs.datanode.bytes_read 讀出總字節包含crc驗證文件字節數
dfs.datanode.bytes_written 寫入總字節數（在寫入每個packet時計數）
dfs.datanode.copyBlockOp_avg_time 複製塊平均時間（單位ms）
dfs.datanode.copyBlockOp_num_ops 複製塊次數
dfs.datanode.heartBeats_avg_time 向namenode彙報平均時間
dfs.datanode.heartBeats_num_ops 向namenode彙報總次數
dfs.datanode.readBlockOp_avg_time 讀塊平均時間（單位ms）
dfs.datanode.readBlockOp_num_ops 讀塊總次數一般和dfs.datanode.blocks_read 一致，先從硬盤讀入輸入流，增加dfs.datanode.blocks_read 計數，然後再增加該計數
dfs.datanode.reads_from_local_client 從本地讀入塊次數
dfs.datanode.reads_from_remote_client 從遠程讀入塊次數
dfs.datanode.replaceBlockOp_avg_time 替換塊平均時間（負載均衡策略）
dfs.datanode.replaceBlockOp_num_ops 替換塊次數（負載均衡策略）
dfs.datanode.volumeFailures notfound 和block擁有的volume 失敗有關
dfs.datanode.writeBlockOp_avg_time 寫塊平均時間
dfs.datanode.writeBlockOp_num_ops 寫塊總次數一般和dfs.datanode.blocks_written 一致，先從硬盤，增加dfs.datanode.blocks_read 計數，然後再增加該計數
dfs.datanode.writes_from_local_client 寫本地次數
dfs.datanode.writes_from_remote_client 寫遠程次數
jvm.metrics.gcCount gc總次數
jvm.metrics.gcTimeMillis gc總耗時(ms)
jvm.metrics.logError jvm error 次數
jvm.metrics.logFatal jvm出現fatal次數
jvm.metrics.logInfo jvm info出現次數
jvm.metrics.logWarn jvm warn出現次數
jvm.metrics.maxMemoryM jvm試圖使用最大內存（M），如果沒有限制返回Long.MAX_VALUE
jvm.metrics.memHeapCommittedM jvm提交堆內存大小
jvm.metrics.memHeapUsedM jvm使用堆內存大小
jvm.metrics.memNonHeapCommittedM jvm非堆內存已提交大小
jvm.metrics.memNonHeapUsedM jvm非堆內存已使用大小
jvm.metrics.threadsBlocked 正在阻塞等待監視器鎖的線程數目
jvm.metrics.threadsNew 尚未啓動的線程數目
jvm.metrics.threadsRunnable 正在執行狀態的線程數目
jvm.metrics.threadsTerminated 已退出線程數目
jvm.metrics.threadsTimedWaiting 等待另一個線程執行取決於指定等待時間的操作的線程數目
jvm.metrics.threadsWaiting 無限期地等待另一個線程來執行某一特定操作的線程數目

rpc.metrics.NumOpenConnections                     number of open connections rpc連接打開的數目
rpc.metrics.ReceivedBytes                          number of bytes received rpc收到的字節數
rpc.metrics.RpcProcessingTime_avg_time             Average time for RPC Operations in last interval rpc在最近的交互中平均操作時間
rpc.metrics.RpcProcessingTime_num_ops              rpc在最近的交互中連接數目
rpc.metrics.RpcQueueTime_avg_time                  rpc在交互中平均等待時間
rpc.metrics.RpcQueueTime_num_ops                 rpc queue中完成的rpc操作數目
rpc.metrics.SentBytes                              number of bytes sent rpc發送的數據字節
rpc.metrics.callQueueLen                           length of the rpc queue rpc 隊列長度
rpc.metrics.rpcAuthenticationFailures              number of failed authentications rpc 驗證失敗次數
rpc.metrics.rpcAuthenticationSuccesses             number of successful authentications   驗證成功數
rpc.metrics.rpcAuthorizationFailures               number of failed authorizations   授權失敗次數
rpc.metrics.rpcAuthorizationSuccesses              number of successful authorizations 成功次數

mapred.shuffleInput.shuffle_failed_fetches     從map輸出中取數據過程中獲取失敗次數
mapred.shuffleInput.shuffle_fetchers_busy_percent   在獲取map輸出過程中並行獲取線程忙碌佔總並行獲取線程百分比
mapred.shuffleInput.shuffle_input_bytes              shuffle過程中讀入數據字節
mapred.shuffleInput.shuffle_success_fetches    從map輸出中取數據過程中獲取成功次數
mapred.shuffleOutput.shuffle_failed_outputs    向reduce發送map輸出失敗次數
mapred.shuffleOutput.shuffle_handler_busy_percent    向reduce發送map輸出中server線程忙碌佔總工作線程(在tasktracker.http.threads中配置)百分比。
mapred.shuffleOutput.shuffle_output_bytes            shuffle過程中輸出數據字節
mapred.shuffleOutput.shuffle_success_outputs         向reduce成功
mapred.tasktracker.mapTaskSlots                設置map槽數
mapred.tasktracker.maps_running                正在運行的map數
mapred.tasktracker.reduceTaskSlots             設置reduce槽數
mapred.tasktracker.reduces_running             正在運行的reduce數
mapred.tasktracker.tasks_completed             完成任務數
mapred.tasktracker.tasks_failed_ping           因tasktracker與task交互失敗導致的失敗的task數目
mapred.tasktracker.tasks_failed_timeout        因task未在mapred.task.timeout配置的(默認10分鐘)時間內彙報進度而超時kill的task數目
rpc.detailed-metrics.canCommit_avg_time        rpc詢問是否提交任務平均時間
rpc.detailed-metrics.canCommit_num_ops         rpc詢問是否提交任務次數
rpc.detailed-metrics.commitPending_avg_time    rpc報告任務提交完成，但是該提交仍然處於pending狀態的平均時間
rpc.detailed-metrics.commitPending_num_ops     rpc報告任務提交完成，但是該提交仍然處於pending狀態的次數
rpc.detailed-metrics.done_avg_time             rpc報告任務成功完成的平均時間
rpc.detailed-metrics.done_num_ops              rpc報告任務成功完成的次數
rpc.detailed-metrics.fatalError_avg_time       rpc報告任務出現fatalerror的平均時間
rpc.detailed-metrics.fatalError_num_ops        rpc報告任務出現fatalerror的次數
rpc.detailed-metrics.getBlockInfo_avg_time     從指定datanode獲取block的平均時間
rpc.detailed-metrics.getBlockInfo_num_ops      從指定datanode獲取block的次數
rpc.detailed-metrics.getMapCompletionEvents_avg_time reduce獲取已經完成的map輸出地址事件的平均時間
rpc.detailed-metrics.getMapCompletionEvents_num_ops   reduce獲取已經完成的map輸出地址事件的次數
rpc.detailed-metrics.getProtocolVersion_avg_time      獲取rpc協議版本信息的平均時間
rpc.detailed-metrics.getProtocolVersion_num_ops       獲取rpc協議版本信息的次數
rpc.detailed-metrics.getTask_avg_time                 當子進程啓動後，獲取jvmtask的平均時間
rpc.detailed-metrics.getTask_num_ops                  當子進程啓動後，獲取jvmtask的次數
rpc.detailed-metrics.ping_avg_time                    子進程週期性的檢測父進程是否還存活的平均時間
rpc.detailed-metrics.ping_num_ops                     子進程週期性的檢測父進程是否還存活的次數
rpc.detailed-metrics.recoverBlock_avg_time             爲指定的block開始恢復標記生成的平均時間
rpc.detailed-metrics.recoverBlock_num_ops              爲指定的block開始恢復標記生成的次數
rpc.detailed-metrics.reportDiagnosticInfo_avg_time     向父進程報告任務錯誤消息的平均時間，該操作應儘可能少，這些消息會在jobtracker中保存
rpc.detailed-metrics.reportDiagnosticInfo_num_ops      向父進程報告任務錯誤消息的次數
rpc.detailed-metrics.startBlockRecovery_avg_time       開始恢復block的平均時間
rpc.detailed-metrics.startBlockRecovery_num_ops        開始恢復block的次數
rpc.detailed-metrics.statusUpdate_avg_time             彙報子進程進度給父進程的平均時間
rpc.detailed-metrics.statusUpdate_num_ops              彙報子進程進度給父進程的次數
rpc.detailed-metrics.updateBlock_avg_time              更新block到新的標記及長度的平均操作時間
rpc.detailed-metrics.updateBlock_num_ops               更新block到新的標記及長度的次數

HBASE監控項翻譯

hbase.regionserver.blockCacheCount ：內存中緩存塊(block cache)數。緩存中StoreFiles(HFiles)的塊（block）數量。

hbase.regionserver.blockCacheEvictedCount ：因超出堆大小限制，從緩存中釋放的塊數量。

hbase.regionserver.blockCacheFree：可用的緩存塊容量。

hbase.regionserver.blockCacheHitCachingRatio：緩存塊的緩存命中率（0-100）。讀取的緩存命中率被配置爲查看緩存（如cacheblocks=true）。

hbase.regionserver.blockCacheHitCount ：StoreFiles(HFiles)從緩存中讀取的塊數量。

hbase.regionserver.blockCacheHitRatio：緩存塊的命中率(0-100).包括所有讀請求，儘管cacheBlocks=false的讀出會被計爲cache丟失。

hbase.regionserver.blockCacheMissCount：被StoreFiles (HFiles)請求但是未從緩存中讀出的塊數量。

hbase.regionserver.blockCacheSize：內存中塊緩存的容量，特指被blockcache佔用的內存容量。

hbase.regionserver.compactionQueueSize ：Compaction隊列大小，用於compaction的RegionServer中的Store個數。

hbase.regionserver.flushQueueSize ：MemStore中等待flush操作的排隊region數量。

hbase.regionserver.fsReadLatency_avg_time ：文件系統延遲（ms）。從HDFS讀操作的平均時間。

hbase.regionserver.memstoreSizeMB ：當前RegionServer中所有Memstore的總容量(MB)。

hbase.regionserver.requests ：總的讀和寫請求次數。請求相當於RegionServer的RPC調用，因此一個Get相當於一次請求，但是哪怕Scan的caching值設置爲 1000，對SCAN每個“下一次”調用僅相當於一次請求，（例如，非每行）。對於大數據塊的請求，每個 HFile對應一次請求。

hbase.regionserver.storefileIndexSizeMB：RegionServer中 StoreFile文件索引大小的總和(MB)。

ganglia監控hadoop各項指標含義

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

spring-task簡單實用小結

linux查看目錄下佔用空間最大的目錄

mysql查看歷史執行的sql

ganglia監控hadoop各項指標含義

hbase meta表修復

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結