Spark簡單讀寫Hive

原創

2018-08-25 05:59

Spark版本：1.6.0
語言：Python 2.7

使用Spark寫入Hive表

# --coding=utf-8--
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import HiveContext
conf = SparkConf().setAppName('test')
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
tfile = sc.textFile(fpath)
rdd = tfile.map(your_method).map(lambda x : Row(**x)) #your_method 是自己定義的map函數
df = rdd.toDF() #轉化成DataFrame

#存入Hive表中，mode有append, overwrite, error, ignore 這4種模式
df.write.saveAsTable('testtable',mode='overwrite')
filterDF=sqlContext.sql("SELECT * FROM testtable")
filterDF.show()

使用Spark讀取Hive表數據

# --coding=utf-8--
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import HiveContext
conf = SparkConf().setAppName('test')
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
filterDF=sqlContext.sql("SELECT * FROM testtable")
filterDF.show()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark history UI歷史監控構建

typora-copy-images-to: …\typora-picture Spark history UI歷史監控構建 created by fangchangtan | 20200609 1 構建歷史spark ui回

2020-07-07 00:27:52

大數據組件監控體系構建

大數據監控體系構建基於開源xxx_exporter+promethues+grafana的構建監控系統 1.概況其中，exporter一般是使用來採集各種組件運行時的指標數據； promethues構建指標時序數據庫； gra

2020-07-07 00:27:52

Hadoop RPC初探

1、各個工具的通訊技術在分佈式系統中，網絡通訊是底層的基礎模塊，不同的大數據工具使用不同的通訊技術，比如：組件通訊技術 Hadoop Hadoop自己封裝了RPC Flink Akka Kafka NI

2020-07-04 13:42:15

Spark葵花寶典：一小時速成Spark

Spark簡介什麼是Spark？ Spark是一個快速、分佈式、可擴展（隨時可以進行節點的擴充）、容錯（節點宕機了。那麼它可以重新構建恢復這個數據）的集羣計算框架。低延遲的複雜分析，因爲Spark的低延遲，延遲低是因爲Spark

爱编程的小和尚

2020-07-03 21:53:52

spark之MLlib機器學習-Kmeans

1、構建SBT項目環境 mkdir -p ~/kmeans/src/main/scala 2、編寫kmeans.sbt name := "Kmeans Project" version := "1.0" scalaV

_飞奔的蜗牛_

2020-07-03 07:42:46

hadoop數據上傳hdfs出錯

在hdfs上傳數據時，出現錯誤： could only be replicated to 0 nodes, instead of 1 錯誤出現此問題，首先用 jps 命令查看，datanode沒有正常工作。解決方法：

_飞奔的蜗牛_

2020-07-03 07:42:36

【HBase】從MiniBase學LSM算法

MiniBase學習筆記 https://github.com/pierre94/minibase HBase相對複雜，想要快速啃下來比較困難。而MiniBase吸收了HBase最核心的引擎部分的精華，希望可以通過學習MiniBase

2020-06-27 09:27:26

HBase學習提綱：助你一臂之力

HBase 簡介： HBase是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統。可在廉價PC Server上搭建起大規模結構化存儲集羣。 HBase利用Hadoop HDFS作爲其文件存儲系統，利用Hadoop MapRed

爱编程的小和尚

2020-06-26 11:03:11

Zookeeper學習提綱：助你一臂之力

ZooKeeper ZooKeeper：ZooKeeper是一種分佈式協調服務，用於管理大型主機。分佈式應用：分佈式應用可以在給定時間（同時）在網絡中的多個系統上運行，通過協調它們以快速有效的方式完成特定任務分佈式應用有兩部分

爱编程的小和尚

2020-06-26 11:03:10

impala drop刪除表注意問題

背景在使用impala drop表然後新建該表再插入數據時，發現以前的數據還在裏面。 drop和create過程都沒有報錯。。。實際分析發現，drop表後再select報錯，報表不存在，但實際應該是刪除了映射關係，但是hdfs

2020-06-26 03:06:44

hive函數to_unix_timestamp與unix_timestamp效率問題

可怕，hive版本1.2.1，實踐中發現，to_unix_timestamp比unix_timestamp函數快幾十甚至上百倍！！！

2020-06-26 03:06:44

hive where過濾條件中數值比較注意問題

背景 hive版本1.2.1 問題 where過濾條件中很多條件，其中包含了數值比較情況，當時開發人員沒注意寫的是a=0.01進行比較，a爲數值型，造成過濾條件不生效的情況。單獨是用a=0.01可以，但是在複雜條件下會出現問題。

2020-06-26 03:06:44

hive的between-and問題

背景 hive版本1.2.1 存儲格式parquet 篩選字段爲STRING類型的日期，如’20190918’時出現不包含頭尾的現象。實驗先分別創建parquet格式T1表與textfile格式的T2表， CREATE TAB

2020-06-26 03:06:44

HIVE decimal類型溢出問題

背景 hive版本1.2.1 s1字段類型爲DECIMAL(38,a) s2字段類型爲DECIMAL(38,b) s3字段類型爲DECIMAL(38,c) s1 * s2* s3結果爲NULL，沒有報錯解決辦法猜測爲hive隱

2020-06-26 03:06:44

Spark優化那些事(4)-關於spark.driver.maxResultSize的疑惑

今天遇到了spark.driver.maxResultSize的異常，通過增大該值解決了，但是其運行機制不是很明白，先記錄在這裏，希望後面有機會可以明白背後的機制。該異常會報如下的異常信息: Job aborted due to s

2020-06-25 15:11:59

24小時熱門文章

最新文章

最新評論文章