台部落Ayub

1、主方法 package com.sprider.pingan; import org.apache.http.client.ClientProtocolException; import org.apache.http.cl

2020-07-02 17:12:24

filebeat採集日誌時，重點是刪除一些無關字段。 ###################### Filebeat Configuration Example ######################### # This

2020-07-02 17:12:24

背景是將hive app應用層的數據搬運至mysql中。在hue頁面的日誌中看不到詳細的日誌信息。 1、對於提交了sqoop 命令行 \後面不能有空格。 2、導入錯誤時。需要去查看yarn日誌 historyJob日誌。 1

2020-07-02 17:12:24

廢話不多說，直接上代碼 1、pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"

2020-06-15 09:55:28

Apache Hive 1、Hive簡介 1.1、什麼是Hive hive是基於Hadoop的一個數據倉庫工具，用來進行數據提取、轉化、加載，這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。hive數據倉庫工具

2020-06-15 09:55:28

前言： kafka的消息是通過fileBeat採集Nginx的日誌進kafka。 spark消費kafka的數據 1、源消息： { "@timestamp":"2020-04-18T09:30:41.525Z",

2020-06-15 09:55:28

1、查看狀態 GET /_cat/health?v 2、查詢索引全部數據 GET /ma_2020/_search 3、查詢索引mapping GET /ma_2020/_mapping 4、刪除索引 DELETE /ma_

2020-06-15 09:55:28

Hbase具有冪等性，對於多次導入都可以一樣數據。不會新增數據。 1、oracle全量導入Hbase sqoop import \ --connect jdbc:oracle:thin:@192.168.1.160:1521:

2020-06-15 09:55:28

案例1：全量導入hdfs（刪除目標文件夾）這是建立job,運行時需要 sqoop job -exec test_item_job sqoop job --create test_item_job \ --meta-connec

2020-06-15 09:55:28

Spark開發環境異常處理（Connection timed out） 2020-04-02 22:48:47,973 [Executor task launch worker-0] WARN org.apache.hadoop

2020-06-15 09:55:28

本demo爲Flink 1.8消費kafka的demo 。不多說直接上代碼。 1、POM.XML <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://mav

2020-06-15 09:55:28

1、兩個條件and 問題：SELECT * FROM t_test_info t WHERE t.kv.p.keyword = '123' AND t.kv.b.keyword = 'p' 如果想看詳情數據設置size GET /

2020-05-26 11:04:01

1 - distinct SELECT DISTINCT(user_id) FROM table WHERE user_id_type = 3; { "query": { "term": { "user_i

2020-05-22 11:25:24

本案例爲從Hive中導入至Mysql 注意：hive中的字段和mysql的字段一定要一樣。字段類型也要一樣。我們可以通過columns 一批字段的進行測試。一定要注意時間字段 sqoop export \ --connect

2020-05-18 08:42:28

kafka的數據來源於Nginx的日誌。 #源數據 192.168.1.123 - - [15/May/2020:21:47:39 +0800] "GET /nas/ma/q.gif?a=123&b=message&p=1234

2020-05-18 08:42:27