ganglia監控hadoop各項指標含義

監控指標大致如下:  

default.shuffleInput  

dfs.datanode  

jvm  

mapred.shuffleOutput  

rpc  

metricssystem  



dfs.datanode.blockChecksumOp_avg_time 塊校驗平均時間  
dfs.datanode.blockChecksumOp_num_ops 塊檢驗次數  
dfs.datanode.blockReports_avg_time 塊報告平均時間  
dfs.datanode.blockReports_num_ops 塊報告次數  
dfs.datanode.block_verification_failures 塊驗證失敗次數  
dfs.datanode.blocks_read 從硬盤讀塊總次數  
dfs.datanode.blocks_removed 刪除塊數目  
dfs.datanode.blocks_replicated 塊複製總次數  
dfs.datanode.blocks_verified 塊驗證總次數  
dfs.datanode.blocks_written 向硬盤寫塊總次數  
dfs.datanode.bytes_read 讀出總字節包含crc驗證文件字節數  
dfs.datanode.bytes_written 寫入總字節數(在寫入每個packet時計數)  
dfs.datanode.copyBlockOp_avg_time 複製塊平均時間 (單位ms)  
dfs.datanode.copyBlockOp_num_ops 複製塊次數  
dfs.datanode.heartBeats_avg_time 向namenode彙報平均時間  
dfs.datanode.heartBeats_num_ops 向namenode彙報總次數  
dfs.datanode.readBlockOp_avg_time 讀塊平均時間(單位ms)  
dfs.datanode.readBlockOp_num_ops 讀塊總次數 一般和dfs.datanode.blocks_read 一致,先從硬盤讀入輸入流,增加dfs.datanode.blocks_read 計數,然後再增加該計數  
dfs.datanode.reads_from_local_client 從本地讀入塊次數  
dfs.datanode.reads_from_remote_client 從遠程讀入塊次數  
dfs.datanode.replaceBlockOp_avg_time 替換塊平均時間(負載均衡策略)  
dfs.datanode.replaceBlockOp_num_ops 替換塊次數(負載均衡策略)  
dfs.datanode.volumeFailures notfound 和block擁有的volume 失敗有關  
dfs.datanode.writeBlockOp_avg_time 寫塊平均時間  
dfs.datanode.writeBlockOp_num_ops 寫塊總次數一般和dfs.datanode.blocks_written 一致,先從硬盤,增加dfs.datanode.blocks_read 計數,然後再增加該計數  
dfs.datanode.writes_from_local_client 寫本地次數  
dfs.datanode.writes_from_remote_client 寫遠程次數  
jvm.metrics.gcCount gc總次數  
jvm.metrics.gcTimeMillis gc總耗時(ms)  
jvm.metrics.logError jvm error 次數  
jvm.metrics.logFatal jvm出現fatal次數  
jvm.metrics.logInfo jvm info出現次數  
jvm.metrics.logWarn jvm warn出現次數  
jvm.metrics.maxMemoryM jvm試圖使用最大內存(M),如果沒有限制返回Long.MAX_VALUE  
jvm.metrics.memHeapCommittedM jvm提交堆內存大小  
jvm.metrics.memHeapUsedM jvm使用堆內存大小  
jvm.metrics.memNonHeapCommittedM jvm非堆內存已提交大小  
jvm.metrics.memNonHeapUsedM jvm非堆內存已使用大小  
jvm.metrics.threadsBlocked 正在阻塞等待監視器鎖的線程數目  
jvm.metrics.threadsNew 尚未啓動的線程數目  
jvm.metrics.threadsRunnable 正在執行狀態的線程數目  
jvm.metrics.threadsTerminated 已退出線程數目  
jvm.metrics.threadsTimedWaiting 等待另一個線程執行取決於指定等待時間的操作的線程數目  
jvm.metrics.threadsWaiting 無限期地等待另一個線程來執行某一特定操作的線程數目  




rpc.metrics.NumOpenConnections                     number of open connections rpc連接打開的數目  
rpc.metrics.ReceivedBytes                          number of bytes received rpc收到的字節數  
rpc.metrics.RpcProcessingTime_avg_time             Average time for RPC Operations in last interval rpc在最近的交互中平均操作時間                    
rpc.metrics.RpcProcessingTime_num_ops              rpc在最近的交互中連接數目  
rpc.metrics.RpcQueueTime_avg_time                  rpc在交互中平均等待時間  
rpc.metrics.RpcQueueTime_num_ops                 rpc queue中完成的rpc操作數目  
rpc.metrics.SentBytes                              number of bytes sent  rpc發送的數據字節  
rpc.metrics.callQueueLen                           length of the rpc queue  rpc 隊列長度  
rpc.metrics.rpcAuthenticationFailures              number of failed authentications  rpc 驗證失敗次數  
rpc.metrics.rpcAuthenticationSuccesses             number of successful authentications   驗證成功數  
rpc.metrics.rpcAuthorizationFailures               number of failed authorizations   授權失敗次數  
rpc.metrics.rpcAuthorizationSuccesses              number of successful authorizations  成功次數  



mapred.shuffleInput.shuffle_failed_fetches     從map輸出中取數據過程中獲取失敗次數      
mapred.shuffleInput.shuffle_fetchers_busy_percent   在獲取map輸出過程中並行獲取線程忙碌佔總並行獲取線程百分比  
mapred.shuffleInput.shuffle_input_bytes              shuffle過程中讀入數據字節  
mapred.shuffleInput.shuffle_success_fetches    從map輸出中取數據過程中獲取成功次數   
mapred.shuffleOutput.shuffle_failed_outputs    向reduce發送map輸出失敗次數  
mapred.shuffleOutput.shuffle_handler_busy_percent    向reduce發送map輸出中server線程忙碌佔總工作線程(在tasktracker.http.threads中配置)百分比。  
mapred.shuffleOutput.shuffle_output_bytes            shuffle過程中輸出數據字節  
mapred.shuffleOutput.shuffle_success_outputs         向reduce成功  
mapred.tasktracker.mapTaskSlots                設置map槽數  
mapred.tasktracker.maps_running                正在運行的map數  
mapred.tasktracker.reduceTaskSlots             設置reduce槽數  
mapred.tasktracker.reduces_running             正在運行的reduce數  
mapred.tasktracker.tasks_completed             完成任務數       
mapred.tasktracker.tasks_failed_ping           因tasktracker與task交互失敗導致的失敗的task數目  
mapred.tasktracker.tasks_failed_timeout        因task未在mapred.task.timeout配置的(默認10分鐘)時間內彙報進度而超時kill的task數目  
rpc.detailed-metrics.canCommit_avg_time        rpc詢問是否提交任務平均時間  
rpc.detailed-metrics.canCommit_num_ops         rpc詢問是否提交任務次數  
rpc.detailed-metrics.commitPending_avg_time    rpc報告任務提交完成,但是該提交仍然處於pending狀態的平均時間  
rpc.detailed-metrics.commitPending_num_ops     rpc報告任務提交完成,但是該提交仍然處於pending狀態的次數  
rpc.detailed-metrics.done_avg_time             rpc報告任務成功完成的平均時間  
rpc.detailed-metrics.done_num_ops              rpc報告任務成功完成的次數  
rpc.detailed-metrics.fatalError_avg_time       rpc報告任務出現fatalerror的平均時間  
rpc.detailed-metrics.fatalError_num_ops        rpc報告任務出現fatalerror的次數  
rpc.detailed-metrics.getBlockInfo_avg_time     從指定datanode獲取block的平均時間  
rpc.detailed-metrics.getBlockInfo_num_ops      從指定datanode獲取block的次數  
rpc.detailed-metrics.getMapCompletionEvents_avg_time  reduce獲取已經完成的map輸出地址事件的平均時間  
rpc.detailed-metrics.getMapCompletionEvents_num_ops   reduce獲取已經完成的map輸出地址事件的次數  
rpc.detailed-metrics.getProtocolVersion_avg_time      獲取rpc協議版本信息的平均時間  
rpc.detailed-metrics.getProtocolVersion_num_ops       獲取rpc協議版本信息的次數  
rpc.detailed-metrics.getTask_avg_time                 當子進程啓動後,獲取jvmtask的平均時間  
rpc.detailed-metrics.getTask_num_ops                  當子進程啓動後,獲取jvmtask的次數  
rpc.detailed-metrics.ping_avg_time                    子進程週期性的檢測父進程是否還存活的平均時間  
rpc.detailed-metrics.ping_num_ops                     子進程週期性的檢測父進程是否還存活的次數  
rpc.detailed-metrics.recoverBlock_avg_time             爲指定的block開始恢復標記生成的平均時間  
rpc.detailed-metrics.recoverBlock_num_ops              爲指定的block開始恢復標記生成的次數  
rpc.detailed-metrics.reportDiagnosticInfo_avg_time     向父進程報告任務錯誤消息的平均時間,該操作應儘可能少,這些消息會在jobtracker中保存  
rpc.detailed-metrics.reportDiagnosticInfo_num_ops      向父進程報告任務錯誤消息的次數  
rpc.detailed-metrics.startBlockRecovery_avg_time       開始恢復block的平均時間  
rpc.detailed-metrics.startBlockRecovery_num_ops        開始恢復block的次數  
rpc.detailed-metrics.statusUpdate_avg_time             彙報子進程進度給父進程的平均時間  
rpc.detailed-metrics.statusUpdate_num_ops              彙報子進程進度給父進程的次數  
rpc.detailed-metrics.updateBlock_avg_time              更新block到新的標記及長度的平均操作時間  
rpc.detailed-metrics.updateBlock_num_ops               更新block到新的標記及長度的次數

HBASE監控項翻譯

hbase.regionserver.blockCacheCount  內存中緩存塊(block cache)數。緩存中StoreFiles(HFiles)的塊(block)數量。

hbase.regionserver.blockCacheEvictedCount  :因超出堆大小限制,從緩存中釋放的塊數量。

hbase.regionserver.blockCacheFree: 可用的緩存塊容量。

hbase.regionserver.blockCacheHitCachingRatio:緩存塊的緩存命中率(0-100)。讀取的緩存命中率被配置爲查看緩存(如cacheblocks=true)。

hbase.regionserver.blockCacheHitCount  :StoreFiles(HFiles)從緩存中讀取的塊數量。

hbase.regionserver.blockCacheHitRatio:緩存塊的命中率(0-100).包括所有讀請求,儘管cacheBlocks=false的讀出會被計爲cache丟失。

hbase.regionserver.blockCacheMissCount:StoreFiles (HFiles)請求但是未從緩存中讀出的塊數量。

hbase.regionserver.blockCacheSize:內存中塊緩存的容量,特指被blockcache佔用的內存容量。

hbase.regionserver.compactionQueueSize :Compaction隊列大小,用於compactionRegionServer中的Store個數。

hbase.regionserver.flushQueueSize :MemStore中等待flush操作的排隊region數量。

hbase.regionserver.fsReadLatency_avg_time :文件系統延遲(ms)。從HDFS讀操作的平均時間。

hbase.regionserver.memstoreSizeMB   :當前RegionServer中所有Memstore的總容量(MB)。

hbase.regionserver.requests :總 的讀和寫請求次數。請求相當於RegionServer的RPC調用,因此一個Get相當於一次請求,但是哪怕Scan的caching值設置爲 1000,對SCAN每個“下一次”調用僅相當於一次請求,(例如,非每行)。對於大數據塊的請求,每個 HFile對應一次請求。

hbase.regionserver.storefileIndexSizeMB:RegionServer中 StoreFile文件索引大小的總和(MB)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章