原创 Docker(一):Docker簡介與安裝

文章目錄0、前言一、什麼是Docker二、爲什麼要使用Docker1、更快的交付和部署2、更高效的虛擬化3、更簡單的管理三、Docker相關的概念四、Docker安裝五、Docker世界的Hello World六、常用命令1、從遠

原创 Markdown語法

文章目錄寫在前面的話一、標準Markdown語法1、快捷鍵2、基本語法2.1 字體設置斜體、粗體、刪除線2.2 分級標題2.3 鏈接2.4 分割線2.5 代碼塊2.6 引用2.7 列表2.8 表格二、csdn擴展後的Markdown語

原创 Spark SQL 讀取hive分區表出現分區字段爲null的情況

今天在使用Spark SQL 讀取hive分區表數據的時候,出現了下面的錯誤: 由於這個表是數倉維護提供給我使用的,我並不是很清楚表中數據的情況,於是我取查了一下這個表,發現分區字段pk_year,pk_month,pk_day這幾個字

原创 Spark 2.2.0 在創建過大的DataFrame時候出現的錯誤

今天在使用Spark計算標籤數據並且將結果存入hive表的時候出現了一些問題。 我是用client模式提交的spark應用,在程序運行到一般的時候,突然出現代碼生成器打印出很多奇怪代碼的情況。 我當時很奇怪,就立即kill掉了這個應用,

原创 最新手機號正則表達式驗證方法(scala版)

今天在做運營商標籤,其中通話和短信兩部分標籤需要區分手機號碼和非手機號碼,並且還要考慮手機號碼前面的0086、86等前綴。 首先考慮到手機號碼驗證最方便的就是正則表達式,於是整理了一份最新的手機號碼驗證的正則表達式。 以下是三大運營商的號

原创 Kudu upsert data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu upda

原创 Kudu updata data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu upda

原创 Kudu delete data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu upda

原创 Kudu create table api (scala版)

最近公司準備嘗試使用新的數據庫kudu,於是做了一點研究。由於我們公司的大數據開發語言是scala,但是kudu官網並沒有給出scala的KuduClient API,於是我就對照kudu的java API模仿了一套scala版本的API

原创 Kudu insert data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu select data api (scala版) Kudu updata data api (scala版) Kudu upse

原创 Kudu select data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu upda

原创 != null 還是 is not null

最近在做數據處理的時候由於洗數據的同事沒有把應該清洗掉的空值洗掉,所以讓我在程序處理的過程中遇到了一些麻煩。發現這些空值後,我就想在SQL中將這些空值的數據洗掉。於是用到了!= null ,可是當我再次執行程序的時候,發現運算結果竟然一條

原创 浮點數運算原理詳解

導讀:浮點數運算是一個非常有技術含量的話題,不太容易掌握。許多程序員都不清楚使用==操作符比較float/double類型的話到底出現什麼問題。 許多人使用float/double進行貨幣計算時經常會犯錯。這篇文章是這一系列中的精華,所有

原创 Centos7谷歌瀏覽器安裝

1. 下載 rpm 包https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm2. 安裝依賴包yum install -ylsbyum insta

原创 使用Java讀取Excel文件實現自動對數據

        這段時間遇到一系列spark系統重構的需求,每個獨立程序在重構之後跑出來的數據都需要和原來程序跑出來的數據進行比對, 已確定重構的代碼是否正確。        雖然不需要全量比對,只要抽樣幾十條數據比對就行,但是由於數據字