台部落ZhuangYQ丶

一、背景 1、在scala-2.10.x版本種，case class的元素超過22個以後即會編譯報錯 2、有些業務場景下，需要超過22個元素的值我們項目當中日誌一共有105個字段，在對原始日誌進行處理轉換成parquet文件的過程中

2019-07-03 05:57:25

在azkaban的任務調度中，設置依賴可以完成對任務的調度，腳本如下：第一個job：命名爲 ods_actlog.job --- config: #failure.emails: xx@xx nodes: - nam

2019-06-27 19:50:59

在用sqoop將MySQL的數據導入到hive中的時候出現的錯誤： ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access

2019-06-25 21:50:51

ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.Ro

2019-06-25 21:50:51

在工作中，我們經常遇到的業務就是要將MySQL每天差生的生產數據定時導入到Hive的分區表中，然後根據分區表中的數據進行“數倉建設”，各種數據處理。那麼怎麼運用sqoop將MySQL的數據導入到hive的分區表中吶? 首先，不能再用--

2019-06-23 19:17:01

數倉開發過程中，經常會有需求變更，添加字段的情況所在，添加完了字段還需要重新跑數據，重新將這個字段的數據加載進去，但是會出現一個坑就是加載的數據爲null。問題所在：對於分區表添加字段，向已存在分區中插入數據，結果新增字段的值全部爲

2019-06-23 05:41:47

所謂hive中的謂詞下推指的是： hive中join操作：如果直接兩個表進行join，在最後再進行兩個表的where條件過濾，這樣的話實際上hive會將兩個表先join起來，最後join出來的大表再進行where篩選，這樣的話導致了全表

2019-06-22 19:17:02

在MySQL中，union和union all中，只需要列的數量對應，這樣就可以完成union和union all操作。但是在hive中，我也是這樣想的，於是，我並沒有關注列名必須一致，只是關注了列數量一致，這樣的話，其實也是可以的，比

2019-06-22 19:17:02

我們在業務中往往會遇到一種情況就是：現有的業務已經有很多的數據堆積，並且需要根據現有的數據以分區的形式來建立數據倉庫，這樣的話就需要將表中的一個字段作爲分區字段，以這個字段的值作爲分區的依據。那麼就需要動態分區進行處理：首先需要設置

2019-06-22 19:17:01

一、寫成的sql文件提交到azkaban中，進行任務調度：博客中有對azkaban的學習，可以看一下，這裏主要記錄一下azkaban的坑 1、調度文件：*.job,這個文件以.job結尾，其中，格式是這樣的： --- config:

2019-06-19 05:59:17

select id_no, id_no, case when length(id_no) = 18 then floor(datediff( from_unixtime(unix_timestamp()

2019-06-18 06:46:54

安裝azkaban過程中啓動相關的服務出現錯誤： bigdata@linux server]$ bin/azkaban-web-start.sh Using Hadoop from Using Hive from bin/.. :

2019-06-17 19:49:53

def main(args: Array[String]): Unit = { //創建一個配置信息對象 //設置應用程序名稱 val config:SparkConf = new SparkConf().set

2019-06-15 20:19:13

MR的迭代: Spark中的迭代: 1、spark把運算的中間數據存放在內存，迭代計算效率更高；mapreduce的中間結果需要落地，需要保存到磁盤，這樣必然會有磁盤io操做，影響性能。 2、spark容錯性高，它通過彈性分佈式數

2019-06-15 20:19:13

1、獲取當前的時間戳 select unix_timestamp() from dim_kpi; 2、時間戳轉時間備註：轉化UNIX時間戳（從1970-01-0100:00:00 UTC到指定時間的秒數）到當前時區的時間格式 s

2019-06-10 22:09:00