未來十年大數據工程師即將失業?自動化建模平臺已實現零基礎建模

人工建模需要花費很多時間進行數據預處理、模型選擇、變量選擇、調參、模型評估等,自動化建模將原本需要數週乃至數月的模型開發過程大幅縮短,甚至只需要幾分鐘就能找到最佳的模型。這樣就可以在不同的業務場景中,針對不同的羣體,快速建立大量不同的模型。飛貸金融科技即將在 11 月初上線公測其自動化建模平臺,InfoQ 記者專訪飛貸金融科技副總裁兼首席數據官林慶治,提前揭祕該平臺背後的技術細節。

在日常的建模工作中,我們都或多或少會思考一個問題:建模可不可以被自動化?自動建模與機器學習的未來會如何發展?對於從事商業分析、數據分析、數據挖掘、數據工程、算法工程工作的人,可能也會焦慮,自動建模技術能在多大程度上代替現有的一些日常工作?它會完全取代現有的建模過程麼?會有一部分人失業嗎?本文將從自動化建模平臺本身的痛點、技術細節、飛貸金融科技研發自動化建模平臺的踩坑經驗和思考,以及自動化建模的市場趨勢和人才發展角度,給大家提供一些思考。

當下建模平臺普遍存在哪些痛點?

從建模本身來講,它不是一件新鮮事,很多公司都在做建模,但問題一直存在,主要表現在:

首先,技術門檻高。十幾年前,建模通常是顧問公司才能做,一般銀行裏是沒有建模人員的,因爲建模人員的技術門檻比較高,要求具備統計學背景、編程能力和購買比較昂貴的建模工具。所以很多公司沒有建模人員的配置,只能使用顧問公司提供的建模平臺。

第二,建模和處理流程複雜,工程量巨大。數據、模型等處理及搭建的工程量巨大,但在應用上卻希望能快速從 1 到 N,因此必須具備快速開發能力。

第三,人員瓶頸問題。 可以做建模的人一般要求較高,需要懂算法、模型、數據、工具、效果等,必須是統計學出身,最好是有建模經驗的專業人才,比如大數據工程師、數據科學家等,但目前該崗位人才有很大的缺口。

第四,“黑盒”模型難解釋。 機器學習“黑盒”模型內部工作機制難以理解,導致實現不了多數監管機構要求提供的可解釋報告及營銷應用上的可解釋與應用。如果金融機構想繼續使用基於機器學習的解決方案,就必須對模型可解釋性研究進行投資。

還有一個是現實與接受度的問題。林慶治提到,同樣一個模型,很多人會認爲顧問公司比銀行做得更專業可信,如果領導也這麼想,就導致一些公司很難自己去建模,即使建立了模型,使用起來也“擔驚受怕”,往往最後以失敗告終。

爲什麼我們需要自動化建模?

在自動化建模提出之前,建模的流程可以概括爲這樣的一系列操作:爲了在給定的數據集中實現當前最佳模型性能,需要使用者選擇合適的數據預處理任務,挑選恰當的算法、模型和架構,並將其與合適的參數集匹配。遺憾的是,沒有經驗法則會告訴使用者在機器學習工作流中的每一步該怎麼走,每一次選擇都會生成一個模型。隨着越來越多的模型不斷地被開發出來,如何從衆多模型中挑選最佳的模型也變得非常“棘手”。

從建模人員的角度面臨的最大的一個問題是,如何快速地構建起一個質量相對不錯的模型,以適應業務的快速發展。傳統的風控建模週期較長,通常要數月時間才能達到上線的要求。其中,數據處理與特徵工程的耗時在整個建模過程中會佔到大約 60% 的時間,人工操作起來極具複雜性,需要經驗法則,並且還要耗費大量時間;另一方面,真正建模耗時佔整個模型開發的 30%~40% 的時間。這個過程的難點並不在於給出一個模型,而是在於同時比較多種模型甚至多種模型組合後,選出效果最佳的模型做主決策模型 (冠軍模型)。這個過程如果用人工去實現,也會消耗非常多的時間,並且效果不一定最優。

雖然有些公司可能有專業的建模人員,但是人工建模需要先做數據預處理,然後選擇模型,再做調試參數與模型評估等工作,這要耗費大量的時間。如果在有限的時間裏要求建立大量模型,人工可能只能完成其中的 1/10,甚至更少。這就是爲什麼我們迫切需要自動化建模,因爲當建模變得容易之後,需要大量人工介入的數據處理、模型選擇、模型調參、超參數選擇都可以用機器取代,建模人員可以把更多的精力放在模型調優、模型應用和制定決策上。

去年,開源的自動建模工具 Auto-Keras 發佈,這是一個基於 Keras 的開源自動機器學習 Python 軟件庫。雖然這些開源的工具有其優點,但主要還是面向數據從業人員的建模工作。另外,還有一些公司已經開發出了一些半自動的建模工具。在這些工具上,建模人員可以通過輸入一些參數,自己調試來完成建模任務。

還能更簡單嗎?簡單到輸入一些基本的數據、參數,就能實現自動化建模?答案是:能!

在採訪飛貸金融科技副總裁兼首席數據官林慶治的時候,他提到自己一直在做與數據分析和建模相關的工作,所以深知自動化建模的迫切需求。由於飛貸也在做大數據與人工智能相關產品的 B2B 輸出,所以他想到了做自動化建模平臺,“因爲自動化建模平臺可以完美地結合大數據、人工智能應用與我在該領域 20 多年的數據建模經驗。所以從去年開始我和我的技術團隊就開始進行內部溝通,今年年初正式啓動自動化建模和智能機器人的研發,一直做到現在,還在緊鑼密鼓地內部測試中,希望在 11 月初可以正式對外發布測試。”

飛貸爲什麼要做自動化建模?

爲什麼飛貸要做自動化建模?林慶治解釋,首先,從需求性來說,自動化建模平臺無論是甲方還是乙方都有這個需求。從甲方的角度,無論是哪條業務線,比如信用卡、財富管理、互聯網金融等,都是要基於數據去做模型分析,比如,在風險控制方面會做風控的模型,在營銷方面會做營銷的模型;從乙方的角度,因爲市場上對於自動化建模是有大量的需求的,並且還在不斷增加,這就讓乙方開始關注自動化建模的工具和平臺。

其次,飛貸爲什麼有能力做自動化建模?在以前如果要做一個好的建模工具,幾個人的團隊很難完成,但現在開源技術有了突破性的進展,建模方法論也發展得越來越標準化,尤其是 Google 提出了 AutoML 概念之後。隨着開源技術和開源工具被廣泛接受和使用,在建模上可以直接使用開源的工具做整合與開發,再利用自身技術團隊的經驗,不斷測試和迭代,最終將其研發成一款產品。

飛貸自動化建模平臺的創新設計

據瞭解,現在市面上主要有三種類型的廠商在做自動化建模:第一類是傳統做 BI 分析的廠商,他們也想搭上自動化建模的列車,想要從傳統的 BI 廠商轉型。但這類廠商存在的問題是技術深度不夠,對業務不瞭解,沒有辦法貼近用戶的需求;第二類是由一些教授或者研究人員發起的、專門研究自動化建模技術的團隊,從而成立一個公司去開發建模平臺。

這類廠商的問題在於太講究學術性、理論性,導致從用戶體驗的角度,門檻高,上手太難;第三類就是像飛貸這樣,基於對業務的瞭解,提供 to B 的工具和平臺。

飛貸一直有一個很明顯的標籤,就是既當過甲方,也做過乙方,所以其研發的自動化建模平臺首先關注的是有建模需求的,但是沒有那麼高的技術水準的人,幫助他們也能實現快速建模。林慶治提到,“飛貸開發團隊的人大都來源於建模工具的廠商顧問或業界建模人員,所以我們非常清楚建模裏面的全流程,與市場上其他廠商最大的差異化就在於我們既是用戶,也是開發者。”

飛貸做自動化建模平臺,就是摸準了市場需求,又具備了足夠的技術實力。所以,這事就成了。

飛貸自動化建模平臺的第一版設定是有建模需求但不一定具備編程能力的人,只要他具備基本的統計分析知識,瞭解建模的原理和建模的流程,他就會很快速地接受該平臺並上手,這就是低門檻。但低門檻不代表廉價,飛貸搭建的是一個全流程建模,並且該模型可以實現自學習,在某種程度上有點類似於 AI ,只要不斷輸入新的數據,該模型可以實現快速重新學習,不斷優化,提升效能。

飛貸自動化建模平臺的初步用戶畫像可分爲兩種:一類是小公司和個體,有建模和數據分析的需求,這類用戶可以採用線上訂閱的方式。另一類是中大型的銀行、保險公司等持牌金融機構,可以採用租用或買斷的形式使用建模平臺。

飛貸自動化建模平臺的踩坑經驗

在問及飛貸研發自動化建模平臺的踩坑經歷時,林慶治提到,“飛貸金融科技的研發團隊基本上都是甲方建模出身,所以非常清楚建模的流程、環節以及注意事項,但是當我們作爲乙方去研發這樣一款建模產品時,遇到的棘手的問題還是很多。”

首先是開源軟件帶來的不穩定性。 如前面所述,免費的開源工具確實極大地便利了自動化建模平臺的研發,但與此同時,開源工具自身的不穩定性,也“折磨”着技術團隊不斷去調整,比如 Python、Spark 等,需要結合實際需要不斷修正。

第二個是效能問題。 因爲現在自動化建模,需要做大量的系統性自動化工程、例如特徵工程、自動調參,這些工作本來就比較耗時間,一但數據增長翻倍之後,帶來的系統負荷更大,怎麼在精準性與效率上取得平衡,是現在面臨的主要挑戰。

第三個是如何做好差異化。如果研發團隊只是把市面上的開源工具“包裝”一下賣出去,各家的產品不會有差異化,也談不上有市場競爭力。飛貸在一些核心的技術細節上做了調整或者去自主研發,特別是在特徵工程與參數調優等方面,確確實實下了一番功夫。林慶治說:“差異化是自動化建模平臺的核心競爭力之一,所以在關鍵的技術上,我們甚至請到了香港大學教授、業界比較有名的專家,針對核心的一些技術去做自主研發或調優。”

自動化建模技術成熟以後,數據科學家們會失業麼?

知乎上有人提問,未來數據科學家的崗位需求是不是會越來越少?正如開篇提到的問題,對於從事商業分析、數據分析、數據挖掘、數據工程、算法工程工作的人,可能也會焦慮,自動建模技術能在多大程度上代替現有的一些日常工作?它會完全取代現有的建模過程麼?會有一部分人失業嗎?

基於對建模的瞭解,林慶治認爲大家不必“杞人憂天”,自動化建模不會取代數據科學家的價值,恰恰相反,數據科學家的重要性只會越來越高。

首先,從總體需求的角度來看,企業對建模的需求只會愈來愈大。其次,從滿足建模需要來說,自動化建模可以解決企業建模人才不足以及需要快速建模的需求場景,例如營銷響應模型。但對於一些重要的模型或是複雜度高、需要調優的模型,還是需要有經驗的數據科學家來完成。因此,自動化建模與有經驗的數據科學家不是取代關係,而是相輔相成,各司其職。

如果自動建模技術真的滲透到我們工作中的各個領域後,基礎的數據挖掘和算法工程師該如何體現自己的價值呢?

  • 增強對業務深度的理解與場景應用:雖然模型可以進行自動訓練,但是理解業務需求、建議適用模型與模型的應用還是需要專業的建模人員來參與。
  • 建模知識體系的不斷學習和建模經驗的沉澱:能夠不斷學習新的建模理論,並從實際建模經驗中沉澱出有用的經驗法則是專業建模人員不可取代的價值。

飛貸自動化建模平臺的未來發展的規劃

自動化建模的市場其實早就“熱流涌動”,只是還沒有冒出頭。目前這片市場還處於“魚龍混雜”的局面。

一些有技術背景的人,比如他在谷歌、微軟工作過,研究過建模工具,但是他沒有業務背景,他不瞭解從使用方的角度會考慮哪些因素,這就導致他雖然也在做自動化建模,但是產品的完整度與應用性很低。一個好的自動化建模平臺要從兩個層面去考慮,一是站在客戶(使用方)的角度,這個產品是否滿足他的需求;二是有沒有真正理解自動化建模的方法和精髓,是否用自動化建模的思維去做產品。

“其實我認爲業界做得比較好的一款自動化建模產品是 H2O。”林慶治提到,H2O. ai 是初創公司 Oxdata 於 2014 年推出的一個獨立開源機器學習平臺,它的主要服務對象是數據科學家和數據工程師,主要功能就是爲 App 提供快速的機器學習引擎。“但最大的問題是,它太貴了。對於創業公司或中小型企業的用戶,很難承擔起 H2O。相反,飛貸倒是一個不錯的選擇。”

在問及飛貸未來對於自動化建模平臺的規劃時,林慶治提到三點:

一是在產品版本上會更豐富。比如現在針對普通用戶,做了“自動化版本”的建模平臺;下一步會針對技術專家,做專家版本的自動化建模平臺。從建模產品本身來看,會更加個性化,滿足不同用戶羣體的需求。

二是增加不同類型的預測功能。現在自動化建模平臺主要是在做分類性預測,比如預測這個人是好人還是壞人。但是在一些零售的場景下,會用到時間序列數據的預測。例如,一般零售廠商要考慮補貨的問題,所以需要預測一些商品未來一週的需要,這就是時間序列預測。

三是擴大行業應用範圍。目前自動化建模平臺的主要用戶是銀行、保險公司等持牌金融機構,未來該平臺的覆蓋行業和規模會繼續擴大,例如零售業。

嘉賓簡介:

林慶治,現任飛貸金融科技副總裁兼首席數據官。參與亞太區銀行第一個大型數據倉庫實施項目,啓動銀行數據驅動時代;在招商銀行引進手機互動營銷與智慧營銷項目,支持招商在移動終端與實時互動營銷上佔得先機;在飛貸,完成大數據共享平臺、機器學習平臺與可視化平臺三大應用平臺建設,以及數據運營、數字營銷、客戶價值管理和客戶洞察四大數據產品開發,支持飛貸在大數據科技與智能應用創新領域搶得先機。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章