原创 java調用sqoop api用法

java調用sqoop有兩種用法,一是使用sqoop java api,二是使用runtime調用sqoop命令,但runtime比較難用,不推薦,以下是兩種使用sqoop Java api的方法。 方法一、使用String[]傳

原创 分佈式事務——CAP和Base理論

如果我們期待實現一套嚴格滿足ACID(Atomicity原子性、Consistency一致性、Isolation隔離性、Durability持久性)的分佈式事務,很可能的情況就是系統的可用性和嚴格一致性出現衝突。在可用性和一致性之

原创 Spark學習05——鍵值對RDD轉換算子

所有鍵值對RDD轉換算子如下: mapValues、flatMapValues、sortByKey、combineByKey、foldByKey、groupByKey、reduceByKey、aggregateByKey、cogr

原创 Spark學習03——RDD轉換算子

所有RDD轉換算子如下: map、faltmap、mapPartitions、mapPartitionsWithIndex、filter、sample、union、intersection、distinct、cartesian、p

原创 Spark學習02——創建DStream的方法

Spark Streaming提供兩類內置流媒體源。 基本來源:StreamingContext API中直接提供的源。示例:文件系統和套接字連接。 高級資源:Kafka,Flume,Kinesis等資源可通過額外的實用程序類獲得

原创 Spark學習01——創建RDD的所有方法

方式一、從內存中創建 1.makeRDD val rdd = sc.parallelize(List("zhangsan", "lisi", "wangwu")) 2.parallelize val rdd2 = sc.m

原创 Spark學習07——創建DataFrame的方法

一、簡介 基於Row的DateSet就是DataFrame,即DataFrame是DateSet的一個子集,DataFrame只是DateSet的叫法 二、創建方法 1. 使用toDF函數創建DataFrame object Cr

原创 Mysql——事務ACID簡介和原理

事務ACID ACID嘛,原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability) 原子性 根據定義,原子性是指一個事務是一個不可分割的工作單位,其中的操作要麼都

原创 分佈式一致性協議——2PC和3PC

一、2PC 定義 2PC即二階段提交,是計算機網絡尤其是分佈式領域內,爲了保持分佈式系統架構下所有節點在進行事務處理過程中能夠保持原子性和一致性而設計的一種算法。目前絕大多數關係型數據庫都是採用二階段提交協議來完成分佈式事務處理。

原创 Sqoop--源數據含有默認換行符導致的數據不正確

問題描述 使用sqoop導數導到hdfs中,使用Hive查詢發現數據多了,並且有數據錯位的現象。 原因 源數據中有’\n’換行符,導致被hive識別爲換行符。所以出現了記錄多並且數據錯位的現象。 解決方法 使用sqoop命令時加入

原创 關於HIVE增量同步的思考

方案一、如果業務庫沒有刪除操作,並且更新時間完整,使用更新時間做增量同步,sqoop只同步更新時間變化的數據,合併到ODS層表 方案二、如果業務庫有刪除操作,可以先解析數據庫操作日誌,存到hdfs,T+1同步數據後,對增刪改做一次

原创 FAILED: ParseException line 1:0 character not supported here

將hive sql文件上傳到linux,使用hive -f xxx.sql執行時報錯如下: FAILED: ParseException line 1:0 character '' not supported here 經過

原创 Spark學習04——RDD行動算子

所有RDD行動算子如下: aggregate、collect、count、first、foreach、reduce、take、takeOrdered、takeSample、saveAsObjectFile、saveAsTextFi

原创 Hue運行shell腳本,找不到文件

報錯如下 java.io.IOException: Cannot run program "ods_cgi_app_dev.sh" (in directory "/data/coredump/yarn/nm/usercache/h

原创 Sqoop併發控制及相關問題

一、控制參數 Sqoop 可以通過以下參數控制併發讀取的 Mapper 個數加快讀取速度。 sqoop import -m <mapper_num> --split-by pk 或者 sqoop import --num-ma