關於國產項目Apache Kylin 發展歷程及背後的那些事

導讀
  2015年12月8日,Apache 基金會宣佈 Apache Kylin 從 Apache 孵化器項目畢業,正式升級爲頂級項目。從最初開源到成爲 Apache 頂級項目,Apache Kylin 只花了13個月,而且它也是第一個由中國團隊完整貢獻到 Apache 的頂級項目。

Apache Kylin 現狀如何?背後有怎樣的技術團隊?接下來又會有什麼規劃和動作?本期,來自 Kyligence 的聯合創始人兼CTO、Apache Kylin 聯合創建者李揚,跟大家分享 Apache Kylin 的開源歷程、發展方向以及背後團隊的故事。

關於國產項目Apache Kylin 發展歷程及背後的那些事關於國產項目Apache Kylin 發展歷程及背後的那些事

李揚,Kyligence 聯合創始人兼 CTO,Apache Kylin 聯合創建者及項目管理委員會成員(PMC), 主創團隊架構師和技術負責人。專注於大數據分析、並行計算、數據索引、關係數學、近似算法、壓縮算法等前沿技術。曾任 eBay 全球分析基礎架構部大數據資深架構師、IBM InfoSphere BigInsights的技術負責人。

【訪談實錄】
1)Kylin 的發展迅速的關鍵點

答:其實我覺得開源與否並不重要,一個項目成長快、使用度廣的關鍵之處,是在於能不能解決實際問題。Kylin 解決了一個很重要的問題就是:大數據怎麼能夠高速、高併發的查詢,這纔是關鍵所在。Kylin 對這個問題的解決,打開了很多可能。比如傳統的一些數據應用,原本無法對接大數據,因爲大數據一查詢可能需要5分鐘、10分鐘甚至更久,用戶等不及都走了。有 Kylin 以後則打開了一大塊新的領域,這是一種突破,也是 Kylin 的價值,是它能夠很快發展的原因。

2)Kylin 發展現狀如何?

答:我覺得現在發展挺不錯的,國內外的開源產品應用很多,而且都是大型企業在使用,像百度、京東、網易等。現在還看到一個新趨勢,它正在往傳統企業逐漸滲透。互聯網公司本身技術比較強,用得早也是應該的。傳統企業技術不是那麼強的,對這種易用的大數據技術,也漸漸應用起來,像移動、電信、金融、銀行等等,都有看到滲透,這是很好的現象。

Kyligence 作爲一家商業公司來說,目前在國外的市場推廣還處於初期階段,我們對國外的扶持和貢獻還不是很多。國外有一些集成商以及一些技術比較好的企業,會自己拿着 Kylin 使用,也常常會來 Kylin 社區做一些交流。

3)對流式處理進行了講解是 Kylin 的新特性嗎?

答:應該算是新特性,kylin streaming 流式處理其實是大家一直以來呼籲 kylin 支持的特性。在之前1.5的版本里面有個實驗性的實現,相當於是個半成品,還沒做到最好。現在介紹的是在1.6版本里面會正式推出的流式處理功能,我們有做一些大規模的測試,驗證了它是一個比較可靠的功能後才推出來。

4)Kylin 目前的版本更新週期是怎麼樣的?

答:這個很難保證,因爲開源軟件,都是看志願者貢獻,我們一般努力做到1-2個月發一次版本。其實現在回過頭去看,之前也差不多就是這個時間間隔。

5)能簡單說下 Kylin 目前的技術團隊構成嗎?

答:Kylin 的技術團隊最開始只有4、5個人,經過逐漸壯大,目前的主力主要是來自 Kyligence,大概有10來個,此外還有來自京東、美團、網易和一些國外的貢獻者。

6)Kylin 團隊的氛圍和文化如何?

答:我們的團隊其實是非常輕鬆的。有些開源社區在開發流程方面可能會比較嚴謹,比如說代碼不能隨便提交,需要先提一個 pacth ,然後有好幾個 review,全部通過以後纔可以提交。Kylin 社區是比較鬆散的,我們鼓勵把更多的自由和創造力交給開發人員。當你有一個 pacth 提交上來,只要你有權限就可以直接合並,並放入代碼庫。等到事後有時間的話,可能會再來抽驗一些進行 review 。這個步驟和別人是反過來的。

這樣難免會出現一些錯誤,但這就是一種文化,沒有說好或者不好。至於是鼓勵大家主動性多一些,還是管理更重要一些,還是得看各自的情況。

7) Kylin 接下來的發展方向如何?

答:其實還挺多的,主要有兩個。一個是近實時的大數據分析我們基本上已經完成,在1.6版本里的 streaming 大概能做到分鐘級別,也就是說2-5分鐘的延遲,就能看到最新的數據。但在這個基礎上面,其實還能做到更好,把延遲縮短到秒級別,實現真正的實時,這是我們往後的一個方向。

還有一個是支持數據模型的拓展。以前 Kylin 支持的數據模型叫做星型模型,是比較受限的模型,能解決大概70%的問題。但是在和實際用戶的討論當中發現,很多實際問題他們會需要更復雜的模型,也就是雪花模型。所以我們接下來會做對雪花模型的支持。這個實現之後,Kylin 基本上可以和傳統的數據倉庫的級別來進行對比,不管關係模型有多複雜,Kylin 都可以將它拿進來,提供快速、高併發的查詢能力。

8)目前 Kylin 開發者社區的活躍度如何?

答:我們一直說評估一個開發者社區是不是活躍,在 Apache 社區就看它的郵件列表裏面的活躍度。Kylin 社區的郵件列表活躍度和 Spark 差不多,其實是挺活躍的。


 本文地址 :  http://www.linuxprobe.com/Apache-Kylin.html

 免費提供最新Linux技術教程書籍,爲開源技術愛好者努力做得更多更好:http://www.linuxprobe.com/


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章