编写程序向HBase添加日志信息

原創

那山的狐狸

2020-04-23 04:49

关注公众号：分享电脑学习
回复"百度云盘" 可以免费获取所有学习文档的代码（不定期更新）

承接上一篇文档《日志信息和浏览器信息获取及数据过滤》

上一个文档最好做个本地测试

将map方法改为public，做一个测试看是否有错误代码，代码和之前的MainProcess基本一样

之前完成了数据的过滤、补全，大致思路总结如下：

补全

1. IP地址的补全 ==> IP地址转换为地域信息 -->国家、省份、城市

（1）直接使用第三方提供的rest api进行ip地址解析，比如淘宝

（2）使用第三方提供的IP解析库(解析文件) ==> 纯真IP数据库

（3）使用公司内部的IP库

表结构：start_ip、end_ip、country、province、city

start_ip和end_ip其实就是ip转换为long型之后的值

在获取数据的时候：

1. 将IP转换为long型

2. 查数据库看该值对应的地域是什么

2. 服务器时间转换 1532762408.139 -> 153276240839

将服务器时间转换为毫米级的时间戳

3. 浏览器UserAgent数据的解析补全

作用：获取浏览器和操作系统相关数据

方式: UASparser.jar

针对不同的平台、不同的事件进行数据过滤判断

完成了数据的过滤、补全，接下来完成清洗的内容。

先明白下面的选择：

为什么选择HBase作为数据存储？

1.数据收集的各个事件字段不固定，导致etl之后的数据的结构不是固定的，使用Hive表要求结构必须是固定的，所以这里采用HBase,hbase中的列可多可少

2.因为我们的数据分析的时候不是获取所有事件的数据，使用HBASE存储，可以将数据的过滤操作放到RegionServer中进行处理，降低数据的网络传输量

3.对比日志的格式发现日志的内容都可以解析成一个个key-value对的形式

HBase表结构的设计

1. 按天分表：一天的数据放一张表，做一个定时任务，30天以前的数据归档到一张历史表中

2. rowkey设计：随机的值（uuid+serverTime+clientInfo）

通过crc32生成一个唯一的值

提取每条日志数据中特征字段信息，然后通过crc32工具根据一定的算法生成一个唯一的值

3. 列簇：采用单列簇

4. 其他相关参数的设置，比如是否缓存

开始代码编写

首先编写一个Map和Runner

Map使用之前的AnalysisDataMapper，我们进一步完善

添加继承类和属性

Setup方法

Map方法更改

添加结果输出

完成generateHBasePut方法

完成generateRowKey方法

创建Runner

完成代码，继承Tool

添加配置属性

完成运行方法

设置配置

重载运行方法

开始创建job

设置参数信息

完成processArgs方法

完成setJobInputPaths方法

完成setHBaseOutputConfig方法

构建表名称

本地配置启动部分

HbaseAdmin的创建，注意这里有个Hbase版本的选择，根据自己机器的环境

Info列镞

创建表

主方法

完成之后开始运行（集群上环境都已经启动）

本地

默认是路径上有日志数据，读取的是昨天的，如果没有需要指定时间

添加参数

然后打包运行到集群中

这里添加了一个配置文件

里面要更改一个路径，这里是你的工作空间

然后执行maven的install命令，打包成jar

上传到linux

执行

Yarn jar 你的jar com.xlgl.wzy.mr.etl.AnalysisDataRunner（runner的全包类）

去HBASE看有没有表和数据

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Linux下使用docker创建nginx图片服务器（六）

Linux下使用docker部署前後分離netcore webapi項目、前端vue頁面、Mysql、Redis、SQLite Linux下使用docker部署netcore（一） Linux下使用docker部署Mysql（二）

2020-07-07 22:48:48

简记git上传GitHub

gitbash進入目錄， git init初始化一個倉庫 git add . 添加文件 git commit -m 添加註釋 git remote add origin https: 連接GitHub倉庫 git push ori

2020-07-07 09:29:29

Chrome浏览器打开所有网页都提示崩溃、重新加载、即使设置扩展程序也打不开

筆者也是莫名的遭受到了這種問題，經過查找也沒發現問題的原因，有人說是因爲用過梯子，確實用了但沒發現哪裏出問題。試了你個方法還是解決掉了。 1、禁用沙盒模式（--no-sandbox）：只能治標，解決不了根本問題，但是可以正常訪問。

2020-07-07 02:09:51

射频功率计算

在射頻電路模塊的測試中，會經常遇到計算功率的問題，應爲如果使用頻譜儀測試時，顯示的是dBm，與人們常識中的功率是W不協調，也不便記憶，所以需要進行轉換，正常的轉換時需要進行反對數，但大多數的計算器是沒有反對數的，甚至是沒有對數，而這時就可

2020-07-06 19:18:10

Linux下使用docker部署VUE（五）

Linux下使用docker部署前後分離netcore webapi項目、前端vue頁面、Mysql、Redis、SQLite Linux下使用docker部署netcore（一） Linux下使用docker部署Mysql（二）

2020-07-06 17:37:15

Android Tween动画（网上总结）

1.用代碼實現動畫透明度動畫、旋轉動畫、尺寸伸縮動畫、移動動畫 public class MainActivity extends Activity { private ImageView image; priva

2020-07-06 14:46:19

android studio 快捷解决自定义，只适用于我

github 代碼查看https://github.com/yipianfengye/octotree 輸入提示不區分大小寫 keymap Delete Line ===> ctrl+D Duplicate Line or B

2020-07-06 14:46:19

页面加载顺序及触发事件

頁面加載順序：開始解析HTML文檔結構加載外部樣式表及JavaScript腳本解析執行JavaScript腳本 DOM渲染完成加載未完成的資源（圖片）頁面加載完成頁面加載過程中觸發的事件： document.onreadyst

追逐春天的大孩子

2020-07-06 10:34:21

选择城市列表数据格式转化

import React from 'react' // 導入axios import axios from 'axios' // 1 導入 NavBar組件 import { NavBar } from 'antd-mobile'

追逐春天的大孩子

2020-07-06 10:34:21

三种方法实现页面滚动条直接滚动到顶部

1.document.body.scrollTop=document.documentElement.scrollTop=0 //頁面滾動到頂部 2.document.body.scrollIntoView() 3.docume

追逐春天的大孩子

2020-07-06 10:34:10

checked的妙用

記錄最近工作中學到用單選checked屬性的妙用以下是功能的實現想要美化自由發揮吧 Tabs選項卡 <style type="text/css"> .tab{width: 500px;margin-left: 100

2020-07-06 03:04:05

shopify使用记录（未完待续....）

shopify使用記錄開發前要有一個好習慣呦俺們常用的屬性集合模塊開關塊的使用根據產品標籤判斷根據產品sku判斷塊裏多個section使用判斷頁面是首頁 || collection || product || pages sch

2020-07-06 03:04:05

RSA之超过128个字节的加密

記錄一下： package com.ceshi.demo; import java.security.MessageDigest; import java.security.interfaces.RSAPrivateKey; im

2020-07-05 22:24:17

RSA之生成公私钥的模值

記錄一下： package com.ceshi.fortest; import java.security.KeyFactory; import java.security.interfaces.RSAPrivateKey; im

2020-07-05 22:24:17

html的一些简单js效果的记录

div滑動固定： <script> $.fn.smartFloat = function() { var position = function(element) { var top = element.position()

2020-07-05 03:08:39

24小時熱門文章

最新文章

最新評論文章