你懂集羣monitoring麼?(一)—— IDC機房有關技術指標獲取

背景:
公司自建IDC機房,基於IDC機房構建大數據集羣;需要對集羣資源進行監控,集羣採用的是CDH集羣,採集主要分兩塊進行:

HDFS和YARN相關的指標進行採集
IDC機器自身的指標進行採集
注意: 也許有人會有疑惑,CM界面已經提供了監控的圖表,爲什麼還需要自己進行展示。原因在於,這些信息需要集成到內部的數據平臺上面去,做成對應的數據報表,可視化的方式展示在自己的數據平臺上

實現思路大致可以分爲兩種:

       使用CM所提供的Java API去獲取
       使用CM提供的REST API去獲取

其實兩者本質上是一樣的,CM所提供的Java API也是按照REST API那套來實現的,兩者是保持一致的

核心代碼如下:

public class IdcHostResource {
    private static final Logger LOGGER = LoggerFactory.getLogger(IdcHostResource.class);

static RootResourceV18 apiRoot;

// TODO... 寫死了,需要改進
static {
    apiRoot = new ClouderaManagerClientBuilder()
            .withHost("cm ip")
            .withPort(7180)
            .withUsernamePassword("user", "passwd")
            .build()
            .getRootV18();
}

/**
 * 固定獲取Host的基本資源信息
 */
public static List<IdcHostBasicInfo> getAllHostResource() {
    List<IdcHostBasicInfo> hosts = new ArrayList<IdcHostBasicInfo>();
    HostsResourceV10 hostsResourceV10 = apiRoot.getHostsResource();
    List<ApiHost> hostLists = hostsResourceV10.readHosts(DataView.SUMMARY).getHosts();
    LOGGER.info("Total" + hostLists.size() + "Host");
    for (ApiHost hostList : hostLists) {
        IdcHostBasicInfo host = formatHost(hostsResourceV10.readHost(hostList.getHostId()));
        LOGGER.info("Host Name:" + host.getHostName());
        LOGGER.info("Host Health Summary:" + host.gethostHealthSummary());
        LOGGER.info("Host Physical Memory:" + host.getTotalPhysMemBytes());
        hosts.add(host);
    }
    return hosts;
}

public static IdcHostBasicInfo formatHost(ApiHost apiHost) {
    IdcHostBasicInfo idcHostBasicInfo = new IdcHostBasicInfo();
    idcHostBasicInfo.sethostHealthSummary(apiHost.getHealthSummary().toString());
    idcHostBasicInfo.setHostName(apiHost.getHostname());
    idcHostBasicInfo.setTotalPhysMemBytes(apiHost.getTotalPhysMemBytes());
    return idcHostBasicInfo;
}

/**
 * 通過tsquery來動態獲取對應的metrics info
 *
 * @param query
 * @param startTime
 * @param endTime
 * @return
 */
public static List<IdcMetricInfo> getHostMetrics(String query, String startTime, String endTime) throws ParseException {
    TimeSeriesResourceV11 timeSeriesResourceV11 = apiRoot.getTimeSeriesResource();
    ApiTimeSeriesResponseList responseList = timeSeriesResourceV11.queryTimeSeries(query, startTime, endTime);
    List<ApiTimeSeriesResponse> apiTimeSeriesResponseList = responseList.getResponses();
    List<IdcMetricInfo> metrics = formatApiTimeSeriesResponseList(apiTimeSeriesResponseList);
    return metrics;
}

public static List<IdcMetricInfo> formatApiTimeSeriesResponseList(List<ApiTimeSeriesResponse> apiTimeSeriesResponseList) throws ParseException {
    List<IdcMetricInfo> metrics = new ArrayList<IdcMetricInfo>();
    DateUtils dateUtils = new DateUtils();
    for (ApiTimeSeriesResponse apiTimeSeriesResponse : apiTimeSeriesResponseList) {
        List<MetricData> dataList = new ArrayList<MetricData>();
        List<ApiTimeSeries> apiTimeSeriesResponseLists = apiTimeSeriesResponse.getTimeSeries();
        for (ApiTimeSeries apiTimeSeries : apiTimeSeriesResponseLists) {
            LOGGER.info("query sql is: " + apiTimeSeries.getMetadata().getExpression());
            IdcMetricInfo metric = new IdcMetricInfo();
            metric.setMetricName(apiTimeSeries.getMetadata().getMetricName());
            metric.setEntityName(apiTimeSeries.getMetadata().getEntityName());
            metric.setStartTime(apiTimeSeries.getMetadata().getStartTime().toString());
            metric.setEndTime(apiTimeSeries.getMetadata().getEndTime().toString());
            for (ApiTimeSeriesData apiTimeSeriesData : apiTimeSeries.getData()) {
                MetricData data = new MetricData();
                // 在Data中插入EntityName,避免重複數據的產生
                data.seHostname(apiTimeSeries.getMetadata().getEntityName());
                // CM默認得到的時間格式爲 EEE MMM dd HH:mm:ss 'CST' yyyy,轉換時間格式爲 yyyy-MM-dd HH:mm:ss
                data.setTimestamp(dateUtils.parse(apiTimeSeriesData.getTimestamp().toString()));
                data.setType(apiTimeSeriesData.getType());
                data.setValue(apiTimeSeriesData.getValue());
                dataList.add(data);
            }
            metric.setData(dataList);
            metrics.add(metric);
        }
    }
    return metrics;
}

注意:

代碼中涉及到的DateUtils需要自己去進行實現
通過這部分代碼可以通過傳入tsquery的方式去獲取對應的idc集羣的metric信息;接下來的代碼我們只需要通過ServiceImpl去實現對應的監控指標的獲取代碼即可
如果想通過cm api與spring boot整合的,這其中還會遇到2個問題:
依賴衝突問題,主要表現在jackson與cxf的衝突;通過排jar包的方式可以解決

正則解析錯誤,該問題爲cm使用過程中的一個坑,目前仍在排查當中,具體表現形式爲:

你懂集羣monitoring麼?(一)—— IDC機房有關技術指標獲取
這裏面有個空格,因此在編譯的過程中直接會報正則解析的錯誤;但是我們可以發現在cm 6.x的api版本中已經沒有這個問題了:
你懂集羣monitoring麼?(一)—— IDC機房有關技術指標獲取

因此可以直接升級api的版本來解決該問題,但是隨之帶來的問題就是與線上運行的cm版本不一致(線上的版本爲5.13.2),因此對於如何解決仍然需要思考;不過經過測試發現,使用cm 6.x版本的api,對於目前線上那套版本的相關指標並不影響

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章