原创 hive 中複雜 sql 的使用

Hql中生僻的 sql 1,一列多行轉一行多列 create table dev_updated.costomer_wujb5( customer string, product  string, monetary  string );

原创 使用spark將從hbase中讀取數據

使用spark將從hbase中讀取數據 val sparkConf = new SparkConf().setAppName(“xxxx”).setMaster(“local”) //從數據庫中讀取數據 val sparkTask

原创 spark中的序列化器

//指定序列化處理類 sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") //註冊自定義類交給KryoSerializer序

原创 mr的shuffle和spark的shuffle之間的區別

mr的shuffle mapShuffle 數據存到hdfs中是以塊進行存儲的,每一個塊對應一個分片,maptask就是從分片中獲取數據的 在某個節點上啓動了map Task,map Task讀取是通過k-v來讀取的,讀取的數據會放

原创 spark優化

Spark調優一,分配更多的資源1,在哪裏分配 在提交任務時,在這三個參數上分配(–total-executor-cores –executor-memory –driver-memory) 2,分配那些資源 CPU

原创 文章標題

使用spark將從hbase中讀取數據 val sparkConf = new SparkConf().setAppName(“xxxx”).setMaster(“local”) //從數據庫中讀取數據 val spark