原创 Spark GC 調優文章推薦

爲什麼我們需要調GC如果是在以前,ETL爲王的年代,我們其實大可不必去調試,使用默認的 Parallel GC就可以了。但是隨着發展,實時流計算以及AdHoc查詢,對JVM的要求:高吞吐低延遲,又變得非常重要。和傳統Web不同,通常如果

原创 Spark 大/小文件讀取優化

問題描述使用Spark寫複雜SQL時,我們經常會遇到兩個尷尬的情況:表裏的單個文件都很大,而且因爲record比較小,所以單個文件的record數量巨大。表裏每個分區都有成百上千個小文件,單個文件可能只有幾條記錄對於第一種情況,會導致我

原创 認識 Delta Lake

百花齊放的大數據生態 17,18是計算引擎火熱的兩年,19年已然是紅海了。計算引擎中的王者是Spark,綜合指標最好,生態也好,當其他引擎還在ETL,交互查詢,流上廝殺時,Spark已經在AI領域越走越遠。 對比明顯的是,計算層的上層和

原创 給大家引薦下我的開源項目【們】

前言 從開始工作,我一直會問自己這麼兩個問題: 1. 我有足夠多的工具提升自己效率麼? 2. 我有足夠好的平臺去提升團隊效率麼? 效率在我看來是至關重要的。關於我對效率的理解,還可以看看我這篇文章 【抖音短文】痛點不能驅動一切,效率驅動

原创 數據團隊規劃佈局感悟(三)

0x00 前言自己也沒想到馬上會有第三篇了。今天重點講講我對感悟(一)中提及的“解決方案設計團隊”的看法。其實這個名字是我瞎起的,對應的是大家熟知的“算法團隊”或者“機器學習團隊”。0x01 關於幾個名詞的認識機器學習團隊做的事情,我覺

原创 可以【移動數據】而不是【移動計算】了

0x00 前言在進入本文的主題之前,先講兩件事。第一件事,是Spark 3.0 開始重構shuffle部分,用以支持remote shuffle。這意味着我們終於可以爲shuffle專門準備一個存儲集羣了,比如一個單獨的HDFS之類的。

原创 是時候搞一個面向大數據和AI的新編程語言了

數據和AI正在成爲很多公司的重要資產。其中,數據代表了公司在特定領域的積累,也是公司的護城河,AI能力輸出則代表了公司對數據資產的利用深度。二者不可分,光有數據沒有AI,就好比你只有原材料,卻無法加工產生價值;光有AI沒有數據,就好比你光有

原创 SQL思維 VS 編程思維(重製版)

昨天看了一篇文章,裏面有段話講的比較務實:開發效率,從平臺發展的各階段實踐中,我們發現,對於一個統計任務/算法任務/風控任務,如果採用傳統的編程思維方式去實現,那麼只能通過堆開發人員,去做大量的開發、迭代和維護工作,一個任務可能會花一天

原创 【抖音短文】痛點不能驅動一切,效率驅動纔是

什麼都等到痛了纔去做,要你何用。​在我們的內心世界,我們認爲痛點驅動是一個理所當然的事情。只有有了痛,我們纔有動力去解決它。奈何能感受到痛點的是人,而人基因裏就包含了一件事,就是會忍受,會適應。比如你一開始覺得房間有異味,但是隨着時間推

原创 【短文】技術調研儘可能不要交給新手

技術調研是個技術上很有【挑戰】,同時也是一個比較【艱苦】,也考驗一個人的技術【品味】的任務。所以讓一個新手去調研,這明顯屬於爲難新手,並且大概率會得到一個不甚“真實”的調研結果。當然了,讓新手調研也有其背後的“隱情”,因爲新手畢竟能幹的

原创 【一站地鐵短文】該不該追新的技術名詞(概念)

先拋出結論(畢竟我們號稱一站地鐵短文):無論什麼新技術名詞(概念),不要去抵觸,試着去了解,最好是能從其中學習到一些好的東西。名詞(概念)本身並沒有那麼重要。和具體技術不一樣,技術名詞(概念)本質是看待事務的某個角度。既然是一個角度,不

原创 【短文】爲什麼要關注技術趨勢

很多對技術持有保守心態的人,總是希望某項技術爛大街以後再買入,但是技術本身並不是憑空而來的,而是實際的需求驅動的。這意味着,當它爛大街的時候,其實可能已經不能支撐現階段公司業務的訴求了。舉個例子,現在已經進入數據湖階段了,這也意味着業界

原创 大數據計算引擎們是該有個統一的標準了,閒聊Linkis

大數據中臺建設其實已經如火如荼了。我們在這裏也不去糾結是中臺還是平臺,總之形態就是登錄web後就可以使用各種大數據引擎進行數據探索,分析,機器學習等工作,大家可以在上面寫SQL,Python,Scala等等。大數據計算引擎有非常多,比如

原创 2019年技術思維套路總結

前言19年,在一些技術思維上形成了幾點套路,不過目前還沒有成體系,所以想到啥就寫啥了,算是一個記錄,避免自己以後忘了。技術調研不要交給新手技術調研是個技術上很有【挑戰】,同時也是一個比較【艱苦】,也考驗一個人的技術【品味】的任務。所以讓

原创 數據湖Delta Lake 深入解析&專欄介紹

最近在知乎新開了一個專欄,<數據湖Delta Lake 深入解析>,具體鏈接請大家查看原文鏈接啦。這個系列不講API用法(畢竟官網的Docs已經足夠),不講源碼(枯燥並且影響我們理解的東西),我們重點講思想和概念,我們期望通過該系列,讓