原创 如何將Python算法模型註冊成Spark UDF函數實現全景模型部署

本文作者來自MLSQL社區 & Kyligence 機器學習平臺工程師 Andie Huang 背景 Background 對於算法業務團隊來說,將訓練好的模型部署成服務的業務場景是非常常見的。通常會應用於三個場景: 部署到流式程序裏

原创 可編程的SQL是什麼樣的?

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 MLSQL Stack的體驗站點終於來啦

MLSQL的體驗站點終於來了,點這裏 MLSQL Console. 另外有Bug或者建議的,可以在Issues提問題一起探討哦。 站點最新更新 Excel 支持 (2020-09-01) 增加excel插件支持,支持在MLSQL中使用pyt

原创 Spark的常見困惑(1)

前言已經很少寫Spark的文章了,但是因爲以前寫的挺多的,所以還是有很多人會和我交流Spark相關的內容。這篇文章我會把我經常被問到的幾個問題整理下,也可以避免以後反覆講,因爲可以直接把這篇文章丟過去就行了。我對Spark總體的看法Sp

原创 臺北行二三事:不要讓疲勞被掩埋

今天是到臺北第三天,也是第二次來臺北了。臺北是個很舒適,很適合生活的城市。這兩天來基本就是以酒店爲中心,方圓一公里活動,主要有三個活動內容:睡覺找食寫代碼,寫文章臺北美食裏,家庭作坊式的餐廳佔比很大,一般真正的好喫的都來源這裏。國內其實

原创 基於catalyst的物化視圖改寫引擎的實現

更新日誌: 2020/06/16 group by 視圖的部分描述錯誤,已修正。 什麼是物化視圖 我先用我的話解釋一下什麼是物化視圖。假設我們已經有A,B兩張表,現在我創建了一張表C, C是由A,B兩張表經過一條SQL處理得到的,這個

原创 作爲程序員,你爲什麼會有【技術不重要論】

爲什麼上到老闆,下到技術人員本身都會產生【技術不重要論】,比如在座的是不是都有(或者曾經有)這些想法: “技術是不重要的(這纔是私底下真實的想法,別看在公開場合說的是哈)”,“技術難以形成壁壘”,“有錢叫幾個程序員就搞出來了”,“挖幾個人抄

原创 SQL智能代碼補全引擎【sql-code-intelligence】介紹

sql-code-intelligence 支持標準的Spark SQL補全,也支持MLSQL語法補全。 其基本交互方式是,前端將當前用戶正在書寫的SQL腳本以及當前的光標所在的行列號傳遞給sql-code-intelligence,sql

原创 數據即索引-大數據索引漫談

數據即索引-大數據索引漫談

原创 寫出漂亮的代碼

最近在知乎新開了一個專欄,寫出漂亮的代碼 寫一個功能 能上生產 可能只需要兩天 要讓代碼符有一定的美感 則需要反覆雕琢 很可能就需要五天到一週了。 如果還需要代碼充分可測試 嗯 差不多要兩週了 寫出具有美感的代碼是很難的,需要經驗以及足

原创 從MR到Spark再到Ray,談分佈式編程的發展

從MR到Spark再到Ray,談分佈式編程的發展

原创 SQL複用告別拷貝黏貼!兄dei, 來看看

本文將介紹如何通過MLSQL將一條又長又複雜(子查詢,Join以及重複片段滿天飛)的SQL簡化成萌新都能看懂的SQL語句。 ​案例來了 下面一條SQL是從網上隨便找的,大家可以看到,這條SQL結構上從結構上具備複雜化的潛質,子查詢,Join

原创 MLSQL智能代碼提示

MLSQL智能補全功能現階段是作爲MLSQL的一個插件的形式提供的。在發佈第一個版本後,我們會將其獨立出來,作爲一個通用的SQL提示引擎來進行後續的發展。爲了方便對該項目指代,我們後續使用 【MLSQL Code Intelligence】

原创 Spark 資源自動清理

Spark運行一次SQL,根據SQL的具體執行情況,可能會產生很多垃圾。譬如你可以很容易觀察到的就是在Spark UI上跑完SQL後會有Storage Memory的佔用:這個應該是SQL中有join,並且使用的hash join時產生

原创 Java G1垃圾回收導讀

因爲已經有非常好的文章介紹G1了,所以這篇文章只會提供一些我覺得特別好的文章信息,幫助大家從 茫茫的信息海洋裏節省時間。祝威廉如何看懂G1的GC日誌非常重要,因爲我們需要通過日誌進一步瞭解G1的GC方式。這裏,我推薦RedHat 16/