原创 java爬蟲採集某保險公司產品數據

1、主方法 package com.sprider.pingan; import org.apache.http.client.ClientProtocolException; import org.apache.http.cl

原创 Filebeat配置文件

filebeat採集日誌時,重點是刪除一些無關字段。 ###################### Filebeat Configuration Example ######################### # This

原创 記一次使用sqoop從hive導入數據至mysql

背景是將hive app應用層的數據搬運至mysql中。在hue頁面的日誌中看不到詳細的日誌信息。 1、 對於提交了sqoop 命令行 \後面不能有空格。 2、導入錯誤時。需要去查看yarn日誌 historyJob日誌。 1

原创 SparkSteaming整合kafka----採用direct(低級Api)

廢話不多說,直接上代碼 1、pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"

原创 Hive入門學習

Apache Hive 1、Hive簡介 1.1、什麼是Hive hive是基於Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。hive數據倉庫工具

原创 StrutsStreaming消費kafka的數據sink全過程

前言: kafka的消息是通過fileBeat採集Nginx的日誌進kafka。 spark消費kafka的數據 1、源消息: { "@timestamp":"2020-04-18T09:30:41.525Z",

原创 ElasticSearch RESTFUL API的簡單操作

1、查看狀態 GET /_cat/health?v 2、查詢索引全部數據 GET /ma_2020/_search 3、查詢索引mapping GET /ma_2020/_mapping 4、刪除索引 DELETE /ma_

原创 Sqoop數據導入到HBase

Hbase具有冪等性,對於多次導入都可以一樣數據。不會新增數據。 1、oracle全量導入Hbase sqoop import \ --connect jdbc:oracle:thin:@192.168.1.160:1521:

原创 Sqoop 導入HDFS, Hive

案例1:全量導入hdfs(刪除目標文件夾) 這是建立job,運行時需要 sqoop job -exec test_item_job sqoop job --create test_item_job \ --meta-connec

原创 Spark開發異常處理(Connection timed out)

Spark開發環境異常處理(Connection timed out) 2020-04-02 22:48:47,973 [Executor task launch worker-0] WARN org.apache.hadoop

原创 Flink1.8消費Kafka的數據(Demo)——01

本demo爲Flink 1.8消費kafka的demo 。不多說直接上代碼。 1、POM.XML <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://mav

原创 ElasticSearch進行and,or,in,not in多條件組合DSL結構化查詢

1、兩個條件and 問題:SELECT * FROM t_test_info t WHERE t.kv.p.keyword = '123' AND t.kv.b.keyword = 'p' 如果想看詳情數據設置size GET /

原创 ElasticSearch中distinct,count和group by的實現

1 - distinct SELECT DISTINCT(user_id) FROM table WHERE user_id_type = 3; { "query": { "term": { "user_i

原创 sqoop 從Hive導入Mysql

本案例爲從Hive中導入至Mysql 注意:hive中的字段和mysql的字段一定要一樣。字段類型也要一樣。 我們可以通過columns 一批字段的進行測試。一定要注意時間字段 sqoop export \ --connect

原创 logstash消費kafka的數據

kafka的數據來源於Nginx的日誌。 #源數據 192.168.1.123 - - [15/May/2020:21:47:39 +0800] "GET /nas/ma/q.gif?a=123&b=message&p=1234