原创 spark-sql中文字符使用問題

所有涉及數據源顯示都涉及原始數據的字符集編碼和客戶端語言環境的設置。 那麼在spark-sql環境,只要正確的字符集編碼和正確的客戶端語言環境設置,顯示,使用中文,完全不是困難。 #上傳的文本文件編碼,確認是utf8 [root@slav

原创 Impala,Hive,SparkSQL數據清洗後對後續查詢的影響比較

Impala,Hive,SparkSQL數據清洗後對後續查詢的影響比較 SparkSQL和Impala執行的時間會比較快,Hive明顯慢很多,但是這裏比較不是執行單次查詢效率,而是三種方式清洗後數據產生結

原创 YARN的內存和CPU配置

YARN的內存和CPU配置 時間 2015-06-05 00:00:00  JavaChen's Blog 原文  http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-co

原创 DataNode起不來檢查記錄

今天開機啓動HDFS,發現一個DataNode在界面上是停止的,嘗試手工再次重啓,直接報錯,但是界面上輸出日誌不明顯。 然後看日誌輸出目錄(有點忘了日誌目錄了,查查配置) putty去到目錄:查看,發現50020端口被佔用: 20

原创 Spark on Yarn: Where Have All the Memory Gone?

2015/01/08 by wdong | Uncategorizedinhadoop, Spark, Yarn 原文:http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yar

原创 CDH5.4.7升級到CDH5.5.0

CDH5.4.7升級到CDH5.5.0 參考:CDH5.2.0升級到CDH5.3.3http://www.bkjia.com/xtzh/984876.html 這個是之前CDH5.4.7 SPARK 1

原创 通過文件大小和MD5校驗識別重複文件

#!/bin/sh if [ $# != "1" ] || [ $1 = "--help" ];thenecho "Sytax:md5-sum.sh directory";exit; fi echo "B

原创 sparkR在spark on yarn下的問題

sparkR在spark on yarn下的問題 官網上可以看到說明“Currently, SparkR supports running on YARN with the yarn-client mod

原创 sparkR could not find function "textFile"

Yeah, that’s probably because the head() you’re invoking there is defined for SparkR DataFrames [1] (n

原创 一條ssh命令實現端口轉發,實現跨機器直接訪問

一條ssh命令實現端口轉發,實現跨機器直接訪問 #功能場景:192.168.100.12和192.168.100.11在內網可以連接,但是隻有12這臺機器有另外一個網口配置了外網可訪問的地址,外網不能直接訪問11這臺機器。 #那麼,平時

原创 oracle之spool導出數據

oracle之spool導出數據 參考: http://www.tuicool.com/articles/vEbaie oracle之spool詳細使用總結 - zmlctt 1、準備SQL 存成expo

原创 spark-sql測試總結

spark-sql測試總結 最近倒騰spark-sql,原來測試都是很小的數據,由於自己的是6個虛擬機資源有限,也不能太大,於是在找了帖子。 http://colobu.com/2014/12/11/sp

原创 CDH5.5.0中配置運行Spark SQL的Thrift Server

CDH5.5.0裏面閹割了spark-sql和sparkR,目錄裏面都沒有start-thriftserver.sh,哪怕是spark Standalone部署。 前面帖子講到,CDH5.5.0 spark-sql沒有的情況下,在一個節