原创 scala項目中maven打包報錯java.lang.StackOverflowError解決方法

在maven項目打包的時候報錯,java.lang.StackOverflowError 解決方法在setting->maven->runner->VM Options中添加 -Xss4096k 如下圖所示       再次點擊打包就可

原创 Python函數的文檔註釋規範

函數的文檔註釋 在開發中,如果希望給函數添加註釋,應該在 定義函數 的下方,使用 連續的三對引號 在 連續的三對引號 之間編寫對函數的說明文字 在 函數調用 位置,使用快捷鍵 CTRL + Q 可以查看函數的說明信息 注意:

原创 hive以半小時爲維度進行統計的需求

從2020/04/22日開始,往延3天,按req_id關聯,統計曝光事件與點擊事件之間的時間間隔分佈情況,按30分鐘爲粒度, 點擊事件字段:req_id,clickTime, 曝光事件字段:req_id,exposureTime

原创 Spark:任務中如何確定spark分區數、task數目、core個數、worker節點個數、excutor數量

先上圖: 每一個過程的任務數,對應一個inputSplit1, Partition輸入可能以多個文件的形式存儲在HDFS上,每個File都包含了很多塊,稱爲Block。 當Spark讀取這些文件作爲輸入時,會根據具體數據格式對應

原创 python中的算數運算符

算數運算符 計算機,顧名思義就是負責進行 數學計算 並且 存儲計算結果 的電子設備 目標 算術運算符的基本使用 01. 算數運算符 算數運算符是 運算符的一種 是完成基本的算術運算使用的符號,用來處理四則運算 運算符

原创 Python中的print函數輸出不換行操作

知識點** 對 print 函數的使用做一個增強 在默認情況下,print 函數輸出內容之後,會自動在內容末尾增加換行 如果不希望末尾增加換行,可以在 print 函數輸出內容的後面增加 , end="" 其中 ""

原创 Hive經典面試SQL題

select id, mid_date, price from ( select tmp.*, t.*, date_add(day, pos) as mid_date from (

原创 懶人科技筆試題

次月復購用戶:buy_date>DATE_ADD(first_buy_date,INTERVAL 1 MONTH)算次月復購 第n月復購用戶:buy_date>DATE_ADD(first_buy_date,INTERVAL

原创 函數項級數和函數習題

這題的答案顯然是e^x, 因爲e^x的泰勒展開式就是 怎麼感覺 和函數的概念有點像泰勒展開式的逆運算呀?

原创 canal工作原理

canal的下載路徑https://github.com/alibaba/canal/releases 配置 vim conf/canal.properties 這個文件是canal的基本通用配置,主要關心一下端口號,不改的話默認就是11

原创 Hive拉鍊表的設計

拉鍊表 拉鍊表的核心:獲取當日新增以及修改的數據 用戶表中的數據每日既有可能新增,也有可能修改,但修改頻率並不高,屬於緩慢變化維度,此處採用拉鍊表存儲用戶維度數據。 1)拉鍊表製作過程 步驟0:初始化拉鍊表(首次獨立執行) (

原创 shell編寫除了某幾個字段,選擇全部字段的腳本

代碼如下:除了rn字段和data_date字段,選擇全部字段 #數據加載進表 function loadData() { echo "start loadData" columns='`(rn|data_dat

原创 hive需求統計

從2020/04/22日開始,往延3天,按req_id關聯,統計曝光事件與點擊事件之間的時間間隔分佈情況,按30分鐘爲粒度, 數據結果如下: 時間間隔(單位分鐘) 佔比情況(%) 備註 30 80 60