文 | 鄭林峯 財通證券大數據經理
交流微信 | datapipeline2018
財通證券股份有限公司是一家經中國證券監督管理委員會批准設立的綜合性證券公司,成立於1993年的浙江財政證券公司,現爲浙江省政府直屬企業,主要經營證券經紀、證券投資諮詢、證券自營、證券承銷與保薦、融資融券、證券投資基金代銷、代銷金融產品等業務。
作爲公司中不可或缺的一部分,財通證券的數據團隊管理着日增約爲6000多萬 – 1億條的數據,爲公司的不同層次、不同類型的服務提供着穩定可靠的數據信息。
在人工智能的新時代下,爲實現批量化數據集成,財通團隊放棄老式集成工具,選擇DataPipeline的產品,用5分鐘就完成了以前需要50個小時的任務配置工作。除此之外,DataPipeline獨有的跳板機設置,減輕了數據團隊潛在的管理負擔。
中小型券商數據團隊的痛點
全國120家券商,約40家的中大型券商企業已經建立獨立的基礎數據部門,而對近80家中小型券商企業來說,數據團隊都是在成立中,或者是在二級部門的狀態。
對於中小型券商,一個很大的痛點就是數據集成的問題。這是由於數據組人力資源非常有限,而數據集成因爲對性能和穩定性要求高,開發繁瑣,變化頻繁又無法外包。對於數據集成,大多數券商平臺使用的老版的ETL數據集成工具,由於採取單表級粒度,導致抽取任務的開發,調度管理及測試效率較低。而券商數據流的特點是任務基於清算狀態,當上遊的生產系統完成清算後,數據任務啓動取數至中間庫,當取數任務完成後,再觸發下游系統消費數據。
對於企業級的券商平臺來說,初步的數據採集不需要做繁複清洗轉換工作,只需提供貼源數據給到下游合作商來加工和處理。
其次,目前的常用抽取工具不能對資源進行相對精細的控制。由於上游系統具有強勢的生產性質,券商系統對於數據採集的資源消耗要求很高。券商的預警機制基本在系統流量到30%以上開始預警。
數據使用端沒有驗證規則,沒有自己的冗餘性機制,所有的壓力都在源端數據層。隨着管控的數據規模不斷增加,源端數據出現問題的風險也在提升,導致數據團隊填寫事件單已經成爲家常便飯。
另外,對於金融企業來說,數據安全是重中之重,所以核心系統的數據都是通過網閘進行網絡隔離。使用老版數據集成工具的時候,由於老版數據集成工具的特性,導致數據團隊的整體服務都必須放在內部網絡,一旦任務失敗,團隊必須去到現場的內網機器進行操作,運維十分困難。
解決方案
我們(財通證券)選擇與實時數據管道技術上領先的DataPipeline進行合作,打破了傳統工具在ETL上的束縛。財通證券基於DataPipeline開放的底層平臺,開發了監控預警、數據校驗、個性化調度等功能,以產品化加開放API的組合拳,實現了符合證券行業應用場景的數據集成方案。
批量化的加速提取
在目前大數據時代,數據的加工流程已經發生了變化,從以前的單表採集、清洗轉化、落庫(ETL)轉向數據單純採集不進行轉化直接落庫。所有的轉化在數據落庫後通過大數據技術進行清洗轉化(EL)。
而目前市場上,更多得數據採集的粒度還是在單表級,並且需要進行可視化轉化清洗等操作,浪費了不必要的時間。
DataPipeline適應了時代的需求,採取批量化的採集方式,同時對同個系統的幾十幾百個表一併採集,大大提高了我們(財通證券)的數據採集效率。
對資源的監控
老版數據集成工具等抽取工具,在執行的時候會完全放開抽取進程的能力,會有很好的抽取速度,但是由於沒有辦法進行統一的任務管控,這會對上游系統的數據庫造成很大的壓力。
使用傳統的集成工具,我們最高能消費掉到系統生產備庫50%的性能,單庫每秒鐘的流量條數接近10萬,但這樣做就觸發了上游系統的預警,爲保證生產系統的安全穩定,採集系統必須進行波峯限流。
DataPipeline的工具定義了採集條數和採集流量的雙重閾值,而且由於其任務是對於整個任務下的所有表的總值進行限定,粒度更加適合企業級統一採集工具的使用,保證了企業應用的安全性。
跳板機的實施
作爲金融企業,數據安全是重中之重,所以核心系統的數據都是通過網閘進行網絡隔離,如何快速將數據從不同的網絡環境抽取數據,那麼就需要通過跳板機模式進行處理。
DataPipeline通過跳板機的方式,讓跳板機承擔數據中轉服務,整體採集的控制端存放在非內網環境,確保出現問題可以在外部環境中進行直接管理和問題排查。
值得一提的是,DataPipeline是市場上唯一可以做到這一點的公司。
人工智能時代的考慮
券商以前追求的是高質量的可用數據(結構化數據),如可視化的股價、經濟數據等。在人工智能時代下,更多維度,數量更大的基礎數據(結構化或非結構化數據)顯得更加重要,所以需要採集的表的數量更多,數據也分佈在更多的業務系統。各系統的數據庫類型也不一樣,所以也出現了對於異構數據庫抽取到某一個特定的數據庫這樣的需求。
業內更多使用的是消息中間件的方式去進行,而DataPipeline在上游數據源和下游數據庫之間建立中間件,使用通用的中間件架構完成非結構化和結構化數據的架構統一。
高效的服務,肉眼可見的成果
DataPipeline的研發團隊的工作期並不止於產品完成。交付產品後,DataPipeline團隊在短時間內對客戶的各種行業特性需求快速響應,本着客戶至上的原則,爲財通提供了優質及時的服務。
三月份與貴公司(DataPipeline)談一次需求的優化,很快改版就出來了。基本上券商行業的一些特定需求都可以很好地滿足了。
這樣的效率帶來的高效結果也不會驚奇:僅僅是提取結構性數據一項,DataPipeline就“完爆”了前輩的老版數據集成工具。使用老版工具,幾百張表的抽取配置需要花費50個小時,而使用了批量化採集的DataPipeline基本可以在5分鐘內完成。
結語
由於金融行業具備的數據同步與集中性,ETL對性能和穩定性要求非常高。而ETL開發繁瑣,變化頻繁又無法外包,這就成爲了所有券商的痛點。財通證券作爲一家典型的券商公司,通過DataPipeline的幫助,更敏捷、更高效、更簡單地實現了複雜異構數據源到目的地的實時數據融合和數據管理等綜合服務,使中小型券商的痛點得到有效的解決,並且爲新時代的到來做好了充分的準備。
—end—