原创 IDEA非sbt下spark開發

創建非sbt的scala項目 引入spark的jar包 File->Project Structure->Libararies引用spark-assembly-1.5.2-hadoop2.6.0.jar 編寫代碼 impo

原创 不同hadoop集羣之間遷移hive數據

#!/bin/bash #set -x DB=$1 #獲取hive表定義 ret=$(hive -e 'use ${DB};show tables;'|grep -v _es|grep -v _hb|grep -v import

原创 IDEA15使用maven編譯scala和java

機器安裝maven,在IDEA中配置maven的home 創建項目:new-maven–> scala-archetype-simple project structure–>創建src.main.scala和src.main.j

原创 sqoop job命令自動生成

批量生成 #!/usr/bin/env python import MySQLdb import datetime import time import os #file path FILEPATH='/tmp' #sourc

原创 java通過jdbc連接impala

下載所需jar包:http://www.cloudera.com/downloads/connectors/impala/jdbc/2-5-28.html 選擇使用impalajdbc41版本 import java.sql.C

原创 Spark SQL Example

 Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table and select rows f

原创 python3基礎操作

ubuntu下python連接mysql apt-get install python-mysqldb 獲取當前時間 >>> from datetime import datetime >>> dtNow=datetime.now

原创 spark-shell和scala錯誤

運行spark-shell 或者scala命令,出現以下錯誤: Welcome to Scala version 2.10.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_66).

原创 通過創建臨時表合併某一個庫的hive小文件

#!/bin/bash #需要指定hive中的庫名 #set -x set -e DB=$1 if [ -z $1 ];then echo “Usage:$0 DbName” exit 1 fi #註釋掉

原创 ubuntu14.04網絡設置

修改ip: /etc/network/interfaces 點贊 收藏 分享 文章舉報 ggzone 發佈了203 篇原創文章 · 獲贊 42 · 訪問量 85萬+

原创 mac配置impala odbc

下載mac對應驅動並安裝:http://www.cloudera.com/downloads.html.html *HOST 地址是impala Daemon所在的機器ip,端口可以在cm中設置 vi /usr/local/Ce

原创 hive基本操作

hive級聯刪除數據庫和表 drop database t1 cascade; hive創建臨時表和插入 create table t1 as select * from achi; insert into table t1

原创 ubuntu14.04計劃任務無法執行

在/etc/crontab中添加了任務1,並確認執行時間設置沒有錯。發現任務沒有執行,而/var/log/cron.log日誌文件中沒有該計劃任務的執行信息。另一個計劃任務卻能正確,通過修改任務1的執行時間發現任務已經執行,確認是

原创 在腳本中刷新impala元信息

刷新impala元信息 impala-shell -q 'invalidate metadata' -i hslave1 impala-shell -q 'select count(*) from player' -i hsla

原创 flume 讀取tcp寫到hdfs

# Please paste flume.conf here. Example: # Sources, channels, and sinks are defined per # agent name, in this case