原创 jdbc從入門到放棄、xml、測試、註解

JDBC從入門到放棄 jdbc: jdbc的基礎: 準備工作: 1.導入數據庫驅動的架包(.jar文件) 2.要對架包進行buildPath操作 3.建立代碼實現的數據庫的訪問 java database connectivity

原创 hadoop的組件yarn

hadoop的組件yarn YARN分佈式資源管理框架: hadoop1.0 hadoop2.0 Scheduler :調度器(容量調度,公平調度。FIFO) container:資源容器(抽象概念) Applicati

原创 hadoop的組件hdfs

分佈式文件系統HDFS HDFS架構 HDFS工作機制 HDFS概念 HDFS,它是一個文件系統,用於存儲文件,通過目錄樹來定位文件;其次,它是分佈式的,由很多服務器聯合起來實現其功能,集羣中的服務器有各自的角色。 HDFS的設計

原创 DATAX日常踩坑

DATAX日常踩坑 2019-09-22 17:14:49.482 [job-0] ERROR RetryUtil - Exception when calling callable, 異常Msg:Code:[DBUtilErro

原创 HBase的API

HBase的API wal的機制 WAL(Write-Ahead-Log) SKIP_WAL:不寫wal日誌,這種可以較大提高寫入的性能,但是會存在數據丟失的危險,只有在大批量寫入的時候才使用(出錯了可以重新運行),其他情況不建議

原创 轉角遇見DataX

轉角遇見DataX DataX 是阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M

原创 spark本地提交集羣運行踩過的坑

spark本地提交集羣運行踩過的坑 1.本地提交,集羣跑spark程序設置(scala) val conf = new SparkConf().setAppName("SparkWordCount") conf.setM

原创 sqoop導入的一些問題

sqoop導入的一些問題 以下爲sqoop語句有問題,一定注意語句後的 \ 。 \前要空格,\後不要空格 --null-non-string 0 \ --null-string '123' \ 原數據如果爲null的話,

原创 scala (二)

scala第三章 面向對象 下劃線的作用: 1.導依賴,代表應用某個包的全部類 2.方法和函數轉換,代表轉換的過程 3.傳參,代表一個元素 4.聲明字段,代表賦初始值 5.元組的取值,代表獲取與元組的某個元素 java面向對象 類

原创 azkaban多個executor部署

azkaban多個executor部署 多executor部署介紹 Azkaban3.0+版本提供了三種安裝模式: 單solo-server mode:單機模式,適合開發使用。使用內置的h2數據庫, web server和exec

原创 azkaban安裝Solo Server

azkaban安裝 Solo Server azkaban 3.57.0 編譯 1、下載源碼包 官網地址爲:https://github.com/azkaban/azkaban/archive/3.57.0.tar.gz 清空編譯

原创 scala(三)

scala第五章 文件操作 import java.io.PrintWriter import scala.io.Source object FileDemo extends App { // //讀取文件行 // val

原创 hbase概念

hbase 來源: 解決隨機近實時的高效的讀寫 解決非結構化的數據存儲 1. hbase是一個開源的、分佈式的、多版本的、可擴展的、非關係型的數據庫。 2. hbase是big table的開源的java版本,建立在hdfs基

原创 kafka分佈式集羣的操作

kafka分佈式集羣的操作 3.1客戶端命令行 3.1.1 kafka-topic.sh 1,shell腳本的作用: Create:新建主題 delete:刪除主題 describe:查看主題的詳情 change

原创 scala入門(一)

scala入門(一) 數據類型 變量名; 數據類型 變量名 = 初始化值; scala 定義變量 var 變量名 = 初始化值 var 變量名:數據類型=初始化值 var a=1 定義變量的時候需要初始化值 定義變量的時候可以不指