原创 遠程提交Spark應用到集羣

介紹如何在集羣之外提交Spark任務到集羣。 Spark目前支持三種集羣,分別是Spark自實現的standalone集羣、mesos集羣和YARN集羣。 使用standalone集羣,提交應用時使用–master參數指定集羣地址,如 --

原创 利用HDFS來解決Spark On Yarn模式解決Jar亂飛情況

Spark的jar包比較多,如果直接修改spark的jars目錄中的jar可能對用戶造成jar包衝突,也不利於管理,因爲可以利用HDFS存儲功能解決jar問題 1、在本地創建zip文件,壓縮jar包 # 進入到spark的jars目錄,在

原创 配置spark sql查詢hive

配置idea spark sql連接hive 1.首先將/etc/hive/conf/的hive-site.xml複製到項目的resources下 2.添加maven依賴到pom.xml文件,不僅需要添加spark-sql,還需要添加spa

原创 hadoop學習筆記(五):java api 操作hdfs

HDFS的Java訪問接口    1)org.apache.hadoop.fs.FileSystem     是一個通用的文件系統API,提供了不同文件系統的統一訪問方式。   2)org.apache.hadoop.fs.Path   

原创 BigData-- 大數據常用開源組件一覽

概述 最近有一個項目是跟公司的大數據平臺有關,這裏梳理一下常用的大數據組件,做個記錄,同時,還有一個原因,就是希望用比較簡潔的語言讓我女朋友能對大數據的整體架構有個大致瞭解。 大數據平臺的架構不一而足,市面上的開源工具非常多,所選用的組件

原创 hive:table表中的數據的導出導出幾種方式(DML數據操作)

導入: 本地文件導入到Hive表; Hive表導入到Hive表; HDFS文件導入到Hive表; 創建表的過程中從其他表導入; 通過sqoop將mysql庫導入到Hive表 導出: Hive表導出到本地文件系統; Hive表導出到HDFS;

原创 RabbitMQ的消息確認ACK機制

1、什麼是消息確認ACK。   答:如果在處理消息的過程中,消費者的服務器在處理消息的時候出現異常,那麼可能這條正在處理的消息就沒有完成消息消費,數據就會丟失。爲了確保數據不會丟失,RabbitMQ支持消息確定-ACK。 2、ACK的消息確

原创 Sqoop定時增量導入mysql數據到hdfs(hive)

需求 有2張大的mysql表,量級分別是1億和4.5億(太大了,DBA的同學正在考慮分表),而且數據是增量的,需要寫spark任務做處理,直接讀取mysql有點喫力,想通過sqoop定時增量直接導入hive,然後spark sql再與hi

原创 sqoop架構原理與操作

1、sqoop使用 在學習sqoop使用之前,我們需要查看sqoop都是可以完成什麼任務,通過鍵入:sqoop help,我們就可以看到sqoop可以提供的服務。在項目中,我們主要使用的是sqoop import服務,在使用的過程中,我們

原创 sqoop的job工具

sqoop job工具         sqoop  job工具可以用於創建保存經常使用的命令爲一個任務,還可以用於實現定時調用任務,用於sqoop增量導入新數據。       sqoop

原创 sqoop的增量導入(increment import)

1、import增量導入的官方說明 2、測試sqoop的increment import   增量導入在企業當中,一般都是需要經常執行的,如隔一個星期就執行一次增量導入,故增量導入的方式需要多次執行,而每次執行時,又去寫相應的執行命令的話

原创 sqoop使用mysql做爲metastore

<property>     <name>sqoop.metastore.client.enable.autoconnect</name>     <value>false</value>     <description>If true,

原创 hive表新建外部表關聯hdfs文件

已經安裝好Hadoop和hive環境,hive把元數據存儲在mysql數據庫。這裏僅討論外部表和HDFS的關聯,並且刪掉外部表之後,對HDFS上的文件沒有影響 在HDFS創建分區,並存有文件 在hdfs中存入文件,以日期爲partit

原创 sqoop操作hive,mysql性能測試

注:前提不屑露公司信息 1、從MySQL同時寫HIVE與HDFS數據 1.1、R Ø  數據量:36萬 Ø  字段數:6 Ø  寫入耗時:46s   1.2、a Ø  數據量:130萬 Ø  字段數:6 Ø  寫入耗時:46s  

原创 DataFactory快速生成測試數據

1、DataFactory配置連接MySQL 1)下載安裝myodbc32驅動 2)DataFactory—->New—->ODBC—->DBC Administrator—->添加—->MySQL ODBC Driver MySQL O