原创 主機和虛擬機之間不能互通解決辦法

可能SELINUX的值不是disabledvim /etc/selinux/config 設置SELINUX SELINUX=diabled 然後重啓點腦reboot 重啓後然後關閉防火牆iptables service iptable

原创 kafka及zookeeper安裝部署

因爲kafka啓動依靠zookeeper所以博主先配置zookeeper zookeeper部署 Step1:以root賬號登陸,創建shaka用戶 [root@localhost home]# useradd shaka[root@lo

原创 hive提取等號後面的值

hive提取等號後面的值 parse_url(concat('http://www.XXXXX.com?',refkv), 'QUERY','keyword') keyword爲要提取的字段,,前面url隨便拼,但必須有http://

原创 啓動mapreduce任務失敗會報一下錯誤:

2016-12-30 14:38:04,575 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exception from contai

原创 python解決文件亂碼問題

#!/usr/local/bin/python #-*- coding: utf8 -*- import string import sys reload(sys) sys.setdefaultencoding('utf-8') if

原创 elasticsearch由於數據特別長而找不到數據

這是由於mapping中string類型中ignore_above長度的限制 ignore_above 對超過 ignore_above 的字符串,analyzer 不會進行處理;所以就不會索引起來。導致的結果就是最終搜索引擎搜索不到

原创 presto報Request Header Fields Too Large

錯誤信息如下: ### Cause: java.sql.SQLException: Error executing query ; uncategorized SQLException; SQL state [null]; error

原创 centos7.3/4安裝ambari2.6以上版本報EOF occurred in violation of protocol (_ssl.c:579)

錯誤:ERROR 2018-05-30 00:12:25,280 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)ERROR 2018-05-30 00:

原创 azkaban上傳時卡在那不動

這是因爲你的job依賴層數太多引起的,一般到8層的時候上傳就很慢了,因爲azkaban會把你上傳的文件解析成圖邊的數據存起來。        解決辦法:使用flow flow_1.job: type=flow flow.name=hiv

原创 flume的部署及簡單測試

Flume 的一些核心概念: 組件 功能 Agent 使用JVM 運行Flume。每臺機器運行一個agent,但是可以在一個agent中包含多個sources和sinks。 Client 生產數據,運行在一個獨立的線程。

原创 用mapreduce程序將hive寫數據到hbase慢的解決辦法

       項目中可能會有將hive的數據同步到hbase的需求,但是有時mapreduce程序寫數據會非常慢,也有可能會出現數據傾斜問題。這時就要對mapreduce程序進行優化了。        首先確定調大reduce個數,比如從

原创 部署azkaban報錯:Unrecognized SSL message, plaintext connection?

javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?at sun.security.ssl.InputRe

原创 bat腳本讀取配置文件

bat 讀取配置文件 @echo off :: echo please input(is not null):user passsword expath date :: 讀取配置文件 where bcp ::正式有bcp放開下面這句話