原创 Flink視頻教程

最近在學習Flink,我比較喜歡看視頻教程,在網上搜了很多,有的是收費的,有多說是免費的,但是下載完去看的時候有需要解密,然後給你個QQ,讓你去加,然後付錢。最後我發現Flink中文社區有相關的視頻教程,算是比較官方的了。我下載下來了,放

原创 Hive解析Json字符串(含json數組)

由於字段內容爲Json字符串,隨需要用到get_json_object(string json_string, string path),最初只是知道該方法可以解析簡單的json字符串,比如: select get_json_objec

原创 大數據踩過的坑——Hive where 條件中 not in 或者 in的隱藏信息

最近查詢數據的時候遇到了一個問題,百思不得其解,具體現象如下: select count(1) from idm.idm_table1_s_d where dt = '2020-03-18' 結果爲:2053683514 select

原创 SQL Server 日期和時間函數

1、常用日期方法(下面的GetDate() = '2006-11-08 13:37:56.233') (1)DATENAME ( datepart ,date )    返回表示指定日期的指定日期部分的字符串。Datepart詳見下

原创 關於SQL Server星期問題的處理

在中學的時候我們就知道,西方國家每週的第一天是週日,而在我們國家,通常認爲一週的第一天是週一,這樣在項目開發的過程中就會遇到類似的衝突,現在提供兩種解決方法,供大家參考,如果有更好的方法,歡迎回帖討論 由於在實際項目開發中,在存入星期幾的

原创 本地Spark連接Hive異常問題

環境:idea spark2.2  hive1.1    maven3 場景:本地運行Spark代碼,連接Hive集羣查詢數據: 本地設置了SPARK_HOME、SCALA_HOME 將hive-site.xml複製到本地的%SPARK_

原创 Apache Atlas 1.2.0 部署手冊

參考:http://atlas.apache.org/1.2.0/InstallationSteps.html 說明:本手冊基於集羣已有組件HBase和ElasticSearch,不使用內嵌的HBase和Solr。 依賴: Maven 3

原创 Apache Atlas 1.2.0 Hive Hook & Bridge配置手冊

具體編譯部署方法請參閱: Apache Atlas 部署手冊 參考: http://atlas.apache.org/1.2.0/Configuration.html http://atlas.apache.org/1.2.0/Hook-

原创 Apache Atlas 2.0.0編譯過程中遇到的問題及解決方案

Atlas安裝依賴: 1、Maven 3.5+,下載安裝包解壓後配置環境變量即可,詳細步驟請自行百度,下載地址:http://maven.apache.org/download.cgi 2、Apache Atlas 2.0.0,下載地址h

原创 Hive UDF實現身份證強校驗

工作中需要對Hive表中的身份證號進行強校驗,由於最後一位是校驗位,因此,簡單的正則無法實現,隨用UDF實現相關功能。 我只是實現了功能,沒有做深入的優化,歡迎各位留言,指導下如何優化,不勝感激。 源碼如下, import org.

原创 hive on spark 調優點

目錄 yarn配置 1. 配置cores 2. 配置內存  spark配置 1. executor內存 2. driver內存 3. executor數 4. 動態executor申請 5. 並行度 hive配置 預啓動YARN容器 hi

原创 CDH 環境集成Kudu、Spark2服務方案及相關問題的解決方案

環境:Centos 7 、CDH 5.10.2、     Kudu1.4.0-1.cdh5.12.0.p0.25、Spark 2.2.0.cloudera1-1.cdh5.12.0.p0.142354 我用了一天時間重新搭建了一個測試集羣

原创 sqoop2啓動job時報錯 java.lang.ClassNotFoundException: org.codehaus.jackson.map.JsonMappingException解決方案

初次使用Sqoop2,在 start job時出現了一下異常: java.lang.ClassNotFoundException: org.codehaus.jackson.map.JsonMappingException java.

原创 Spark java.lang.UnsupportedClassVersionError: xxxxxx: Unsupported major.minor version 52.0 解決方案

在運行Spark程序時,出現如下錯誤: Exception in thread "main" java.lang.UnsupportedClassVersionError: com/company/bi/spark/UserInfoTo

原创 yum pycurl: libcurl link-time version is older than compile-time version解決方案

在執行yum 命令時,出現如下錯誤: pycurl: libcurl link-time version is older than compile-time version 錯誤的原因就是pycurl的版本太舊了,解決方案就是重裝下py