原创 Hive性能調優

軟件環境:Hive1.2.1 /Hadoop2.6.4 ;直接使用Hive Cli模式運行;1. 設置執行引擎set hive.execution.engine=mr; set hive.execution.engine=spark;如果

原创 Spark SQL filter not contains

軟件環境:CDH5.8.0;問題:在使用Spark SQL 讀取Hive進行操作的時候,需要使用不包含,如下:(在Spark SQL中有contains,like,rlike函數)在Hive中有表id_url ,內容如下:+-------

原创 SparkSQL read Elasticsearch ClassNotFoundException

環境 軟件 版本 Elasticsearch 2.3.3 spark cdh-1.6.0 idea 2016 問題描述: 現在有一個Elasticsearch集羣,需要使用SparkSQL直接連接進行讀取,參考El

原创 CDH HiveServer2異常退出

本篇參考:http://blog.csdn.net/gklifg/article/details/50418109、http://blog.csdn.net/levy_cui/article/details/53992402、http:/

原创 MAC Spark no snappyjava in java.library.path

軟件版本:Mac:10.12.1,Spark:1.6.0-cdh5.7.3,JDK:1.7.0_79 ; IDEA:14;問題描述:在Mac上運行Spark程序時(採用local 生成SparkContext的方式,具體參考:https:

原创 Spark On YARN內存和CPU分配

本篇博客參考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 軟件版本:CDH:5.7.2,JDK:1.7;問題描述:在使用

原创 Tomcat Sqoop import異常及其解決方法

軟件版本:Sqoop:1.4.6-cdh5.7.3,tomcat:7,JDK:1.7,Intellij Idea 2014 , Hadoop集羣:CDH5.7.3;mysql:5.6;問題描述:在使用Sqoop的API操作數據從Mysql

原创 Spark MLlib算法調用展示平臺及其實現過程

1. 軟件版本:IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hado

原创 Windows Spark On YARN 提交任務到CDH集羣

軟件版本:IDE:Intellij IDEA 14,Java:1.7,Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-c

原创 Spark DecisionTreeModel print

軟件版本:   Spark:1.6.1 ; 問題1:在進行Spark DecisionTree建模時(做分類),可以打印決策樹。當然,使用該模型的toDebugString 可以打印類似下面的字符串,例如:DecisionTreeMode