IT168專訪|DataPipeline 合夥人&CPO陳雷:我們致力於成爲中國的世界級數據中間件廠商

IT168:很高興有機會採訪到您,請您介紹一下自己,所在公司及主打產品?

 

陳雷:畢業之後去了方正,然後IBM11年,創業4年,一直從事數據領域的產品研發,系統交付工作。業務經驗主要集中在金融、通信、能源等信息化領先行業,現在所在的公司DatePipeline是一家年輕的中國本土企業,我們致力於成爲中國的世界級數據中間件廠商,產品也叫DataPipeline,是一款數據集成領域的下一代中間件產品,功能覆蓋了實時數據採集、異構數據融合、實時數據處理等數據集成領域的主要場景。

IT168:您是何時進入這個行業的?這其中有沒有特別的原因或者契機?

 

陳雷:中間件行業可能和互聯網行業還不太一樣,還是有一定門檻的,我相信從事軟件行業的人大部分都和我一樣,沒有什麼特別偶然的原因或者契機,就是從小喜歡計算機,根據興趣選擇了專業然後一路走過來,如果一定要說原因的話,我覺得可能是我們國家近幾十年信息技術的高速發展爲我們提供了一展拳腳的空間,沒有讓我們放棄自己的興趣,這也是一個很幸福的事。

IT168:國內的市場格局是怎樣的?都有哪些玩家?DataPipeline處於怎樣的位置?

 

陳雷:主要分爲三大類。

第一類是傳統的外企,比如IBM、Oracle、Informatica等,有很成熟的產品和服務體系,但面對中國市場的新技術要求的應對稍顯緩慢,比如Informatica今年宣佈解散了中國公司,IBM和Oracle對國內正在逐步興起的數據庫都無法提供支持。

 

第二類是雲廠商,特別是公有云廠商,在大規模數據管理和應用上有非常深入的探索和實踐,比如OceanBase,也代表了未來的發展方向,但在數據集成這個領域還沒有特別有力的產品,而且在面向重點行業企業信息化建設服務這一塊還是有很多的工作要做。

 

第三類是一些有技術實力的行業集成商也在做相關領域的工作,但大部分都是在項目實施過程中基於開源項目慢慢積累,從商業產品角度來說適應性還有待驗證。

 

DataPipeline從成立之初就堅持專業化、產品化發展的道路,堅持技術驅動,深耕企業服務,準確地講在產品的適應性上已經超過了傳統外企,但在產品成熟度上還有很多工作要做,我們現在也廣泛的和雲廠商與行業集成商合作,共同爲企業客戶提供更好的服務。

 

IT168:據您所知,數據融合市場的規模大概是多少?

 

陳雷:數據中間件的上下游市場正在快速增長,倒逼數據融合需求不斷增長,可以說中間件和數據庫及數據應用市場在同一量級,2018年全球市場320億美元,預計到2022年,數據融合市場大概在120億美元以上,符合增長率14%,數據融合是中間件增長最快的細分市場。

 

IT168:對於企業來講,在搭建數據管理平臺過程中都會面臨哪些挑戰和問題?

 

陳雷:這個內容就比較多了,講最重要的三個挑戰吧。

 

第一,各類數據管理技術差異越來越大,全面、準確的實時數據獲取困難。隨着數據技術的不斷髮展,針對某些具體場景的特性在不斷被增強,使得各類數據技術的差異性進一步擴大,但被納入其中的數據本身不應該因技術棧不同而阻礙其價值釋放。

1、交易系統、賬務系統、管理系統、分析系統、主數據、數據倉庫與大數據平臺採用的數據庫管理技術都不盡相同,數據交換困難重重;

2、數據價值不斷凸顯,業務創新需要數據支撐,但大量數據沒有納入主數據管理系統,數據倉庫與大數據平臺又無法滿足時效性要求;

3、數據時效性要求越來越高,批量數據交換無法滿足需求,但針對不同數據庫的增量數據實時採集需要大量的技術儲備與研發成本;

4、增量識別字段等方式無法獲取準確完整的增量數據,經常爲實時數據應用造成障礙,也提升了實時數據的使用成本;

5、不同數據庫管理技術在實例、庫、模式、表等數據對象上,字段類型、精度、標度等語義模式上都有區別;

6、對上游的結構變化感知與應對都需要針對不同數據庫技術區別對待;

7、傳輸過程中的一致性、衝突、特定類型的數據處理也需要區別對待。

 

第二,如何快速響應實時數據需求,把握機會快速建立競爭優勢。業務需要更高的敏捷性來應對外部環境的變化,這需要整個數字化組織可以體系化的進行多速、敏捷的業務場景支撐,以及對突發業務活動有更多的可見性,以確保可以利用新出現的機會並快速建立競爭優勢。

1、端到端實時數據鏈路的構建,往往是以月爲單位交付的,甚至更多;

2、新的數據需求需要大量的代碼開發,交付週期也是以周爲單位計算的;

3、數十種數據庫技術,多家供應商,十幾個支持電話,感覺自己也是是集成商;

4、實時數據處理技術棧門檻較高,人員流失率較高,剛剛用順手的供應商總是換人;

5、數據組的要求無法通過DBA的審覈,應用研發對系統運維要求怨聲載道;

6、資源使用與研發人員水平緊密相關,無法準確評估,遇到關鍵業務需求時捉襟見肘。

 

第三,實時數據鏈路兼具業務運營與管理支撐要求,穩定性與容錯性問題重重。從客戶行爲分析到非交易類的觸客業務到事件營銷再到風控評分,實時數據鏈路逐漸成爲業務運營的重要支撐,但作爲打通各業務系統數據通道的中間層,受到的上下游的各類制約,對穩定性的影響尤其嚴重。

1、上下游節點的業務連續性和服務級別均高於實時數據鏈路,實時數據鏈路需要遵循上下游節點的認證、加密、權限、日誌等管理機制;

2、上游數據對象結構變化與數據對象的處理機制對實時數據鏈路影響巨大,例如結構變化採用rename方式;

3、實時數據流量不僅僅需要參考業務交易量,與上游系統的數據處理方式有很大的關係,經常出現一個語句百萬行增量的情況;

4、隨着企業多中心及多雲戰略的執行,部署在不同網域或雲環境的系統配置,網絡連通性乃至專線供應商與帶寬都對穩定性有影響;

5、對計劃、非計劃的網絡不可用,上下游系統維護,物理刪除等非規操作及偶發的錯誤數據及主鍵衝突數據沒有相應的容錯性策略配置;

6、出現系統故障時,無法保證各個組件的高可用,系統恢復困難,特別是實時數據鏈路的數據完整性與數據一致性很難恢復。

 

IT168:在過去一年中,DataPipeline在產品功能、技術研發,有哪些創新和突破?

 

陳雷:在過去的一年裏,我們針對產品進行了一次較爲徹底的改造,主要體現在幾個方面。

第一,進一步加強了基於日誌的增量數據獲取技術(Log-based change data capture),可以爲各類數據平臺和應用提供實時、準確的數據變化,從而使得客戶可以根據最新數據進行運營管理與決策制定。

 

第二,對數據節點註冊、數據鏈路配置、數據任務構建、系統資源分配等各個環節進行分層管理,在有效地滿足系統運維管理需求的前提下,提升實時數據獲取與管理在各個環節的配合效率。在數據節點、數據鏈路、融合任務及系統資源四個基本邏輯概念中,用戶只需要通過二至三項簡單配置就可以定義出可以執行的融合任務,系統提供基於最佳實踐的默認選項,實時數據需求的研發交付時間從2周減少爲5分鐘。

 

第三,爲應對複雜的實時數據場景需求,系統提供限制配置與策略配置兩大類十餘種高級配置。用戶可以通過這些配置對下游進行限制與管理,也可以通過這些配置來統一調整下游的執行範圍與策略應用範圍。同時,優化了系統整體的分佈式引擎,實現了組件級高可用。從產品配置到系統部署兩個方面保障實時數據鏈路的穩定高容錯。

 

IT168:近年來,您觀察到的數據融合市場發生了哪些變化,有哪些發展趨勢,DataPipeline如何契合這些趨勢?

 

陳雷:數據融合市場發生的變化主要有以下幾點變化。

第一,市場競爭和用戶行爲的巨大變化。

1、用戶交互時間越來越短,算法精度要求越來越高;

2、流量維度越來越多,不再侷限於線上。必須適配場景來爭奪注意力;

3、已經沒有確定的價值錨點,企業必須不斷加快自身進化速度。

 

第二,轉變運營模式要求多速IT的支撐。

1、以客戶爲中心的獨立產品運營模式,企業逐漸成爲公共服務平臺;

2、各個運營部門對數據的時效性、準確性、全面性要求都不相同;

3、對作爲基礎公共服務的數據平臺來說,不變的是對需求的快速響應。

 

第三,數據需求響應從研發向配置轉變。

1、數據支撐與應用開發、系統運維的協調問題必須解決;

2、在保障數據資源可控的前提下,爲數據應用提供更多的自主性與敏捷性;

3、系統資源管理與系統的部署擴展必須靈活方便且平滑穩定。

 

IT168:在國際上是否有類似數見科技數據融合的產品?相比之下有哪些差異化?國外的產品相比國內來講有哪些借鑑意義?

 

陳雷:IBM的 InfoSphere Data Replication、DataStage和Streams、Oracle的Golden Gate和Informatica的PowerExchange和PowerCenter。和這類國外產品相比,DataPipeline有以下幾點區別;

第一,從功能性上來講,IBM和Oracle對各自的數據庫的支持毋庸置疑是最好的,但對新興的數據庫特別是國內正在廣泛使用的數據庫的支持力度就低了很多,DataPipeline通過自主研發和生態上下游的合作,不僅支持傳統的Oracle等關係型數據庫,也支持GaussDB、TiDB、巨杉等新興數據庫的實時數據採集。

 

第二,從部署架構和售賣方式上來講,傳統數據採集和數據處理工作是採用成對部署、成對售賣的方式,對客戶進行高可用部署、系統擴容都不十分友好,而DataPipeline是分佈式集羣部署,在系統資源允許的情況下不限制用戶註冊數據節點,採用容器化部署方式,支持Kubernetes,支持動態擴縮容。

 

IT168:數見科技在做數據融合的過程中,有沒有什麼讓您印象深刻的故事?比如第一個客戶是怎麼來的?比如研發過程中如何解決一個比較大的難題。

 

陳雷:應該說印象深刻的事情實在是太多,客戶上線的喜悅,排除故障的辛勞,攻克技術難關的成就感,和每個創業者都會經歷的壓力,但這些其實也都很平常,這些就是一個技術人員的日常。用兩句短句總結一下。

凡是過往,皆爲序章,十餘年沐雨櫛風,百萬裏地北天南,也平常!

念念不忘,必有迴響,再十年篳路藍縷,獻心力自強安邦,正起航!

 

IT168:您此前是否參加過中國數據庫技術大會?有哪些地方令您印象深刻?您如何看待DTCC大會?

 

陳雷:我在IBM中國實驗室的產品交付部門主要負責的就是數據相關的部分,包括DB2、Informix、Netezza在內的產品都是通過我們交付給中國的客戶,我在這裏可以說都是同行和朋友,我最大的感受是除了老朋友、老對手也有非常多的新面孔和新產品,爲能夠從事這個蓬勃發展的行業感到高興,爲能夠參加這個欣欣向榮的頂級盛會感到榮幸,作爲一個行業老兵,也對DTCC能夠爲中國乃至世界數據庫領域一直堅持做出如此貢獻表示感謝。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章