原创 java爬蟲採集某保險公司產品數據
1、主方法 package com.sprider.pingan; import org.apache.http.client.ClientProtocolException; import org.apache.http.cl
原创 Filebeat配置文件
filebeat採集日誌時,重點是刪除一些無關字段。 ###################### Filebeat Configuration Example ######################### # This
原创 記一次使用sqoop從hive導入數據至mysql
背景是將hive app應用層的數據搬運至mysql中。在hue頁面的日誌中看不到詳細的日誌信息。 1、 對於提交了sqoop 命令行 \後面不能有空格。 2、導入錯誤時。需要去查看yarn日誌 historyJob日誌。 1
原创 SparkSteaming整合kafka----採用direct(低級Api)
廢話不多說,直接上代碼 1、pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"
原创 Hive入門學習
Apache Hive 1、Hive簡介 1.1、什麼是Hive hive是基於Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。hive數據倉庫工具
原创 StrutsStreaming消費kafka的數據sink全過程
前言: kafka的消息是通過fileBeat採集Nginx的日誌進kafka。 spark消費kafka的數據 1、源消息: { "@timestamp":"2020-04-18T09:30:41.525Z",
原创 ElasticSearch RESTFUL API的簡單操作
1、查看狀態 GET /_cat/health?v 2、查詢索引全部數據 GET /ma_2020/_search 3、查詢索引mapping GET /ma_2020/_mapping 4、刪除索引 DELETE /ma_
原创 Sqoop數據導入到HBase
Hbase具有冪等性,對於多次導入都可以一樣數據。不會新增數據。 1、oracle全量導入Hbase sqoop import \ --connect jdbc:oracle:thin:@192.168.1.160:1521:
原创 Sqoop 導入HDFS, Hive
案例1:全量導入hdfs(刪除目標文件夾) 這是建立job,運行時需要 sqoop job -exec test_item_job sqoop job --create test_item_job \ --meta-connec
原创 Spark開發異常處理(Connection timed out)
Spark開發環境異常處理(Connection timed out) 2020-04-02 22:48:47,973 [Executor task launch worker-0] WARN org.apache.hadoop
原创 Flink1.8消費Kafka的數據(Demo)——01
本demo爲Flink 1.8消費kafka的demo 。不多說直接上代碼。 1、POM.XML <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://mav
原创 ElasticSearch進行and,or,in,not in多條件組合DSL結構化查詢
1、兩個條件and 問題:SELECT * FROM t_test_info t WHERE t.kv.p.keyword = '123' AND t.kv.b.keyword = 'p' 如果想看詳情數據設置size GET /
原创 ElasticSearch中distinct,count和group by的實現
1 - distinct SELECT DISTINCT(user_id) FROM table WHERE user_id_type = 3; { "query": { "term": { "user_i
原创 sqoop 從Hive導入Mysql
本案例爲從Hive中導入至Mysql 注意:hive中的字段和mysql的字段一定要一樣。字段類型也要一樣。 我們可以通過columns 一批字段的進行測試。一定要注意時間字段 sqoop export \ --connect
原创 logstash消費kafka的數據
kafka的數據來源於Nginx的日誌。 #源數據 192.168.1.123 - - [15/May/2020:21:47:39 +0800] "GET /nas/ma/q.gif?a=123&b=message&p=1234