一文看懂支付寶金融智能背後的AI技術

 

作者介紹:周俊,螞蟻金服集團人工智能部總監,目前負責螞蟻機器學習中臺的研發。先後參與過 XLib(阿里通用機器學習庫)、飛天(阿里分佈式操作系統)、ODPS(阿里數據處理平臺)、大規模機器學習平臺(Parameter Server)以及 PAI(阿里機器學習平臺) 等幾大分佈式系統與算法平臺的開發。在 VLDB、WWW、SIGIR、AAAI、IJCAI、KDD 等頂級人工智能相關會議上發表論文數十篇,提交人工智能專利和專利申請 100 餘項,獲浙江省科技進步一等獎 1 項。

AI 前線導讀:當下金融科技是一個非常熱門的話題,AI 更是如此,AI+ 金融科技存在巨大的想象力,但金融場景跟傳統的推薦搜索廣告等場景又存在較大的差異。螞蟻金服在 AI+ 金融領域經過了多年的探索,沉澱了較多經驗,螞蟻金服集團人工智能部總監周俊,在2019年11月22日舉行的AICon全球人工智能與機器學習技術大會上,針對如何在金融場景中發揮 AI 的價值?如何讓 AI 更好賦能金融科技場景,幫助各個業務取得效果提升等問題進行了細緻的分享。

 

我演講的內容分爲三個大的議題:第一、金融服務面臨的挑戰;第二、金融 AI 能力;第三、金融 AI 的應用,下面我們來逐一講下:

金融服務面臨的挑戰

首先來說說金融服務面臨的挑戰。金融服務和傳統依賴廣告搜索推薦的傳統電商有很大不同,尤其是場景數量上存在較大差異。很多做金融的企業都是以支付起家,支付本身會積累很多數據和用戶,通過支付本身帶來了很多用戶量之後,會延伸出保險、微貸、財富等大家能在支付寶中經常看到的一些場景,還會衍生出爲這些錢“守門”的風控技術。這種典型的金融服務場景與傳統電商“以逛爲主”的特點不太一樣。比如經常使用支付的人,不一定會經常使用金融場景中的保險,而且保險的使用頻率也不會那麼高,一年的車險和個人保險在某個時間點購買好以後就不會再經常使用到保險這項服務了,貸款也是如此,用戶不太可能一年去貸幾十次,或者上百次,這是不太現實的。用戶跟系統交互過程積累了多樣化的信息,從這些數據中可以看出幾個問題:

第一、它對時間會比較敏感。比如說 2018 年和 2017 年的兩組數據差異還是較大的,差異的原因一方面來自國家宏觀層面上,確實發生了較多的大事。另一方面我們這兩年往外推服務的時候,接觸的用戶羣體的差異也會比較大。還有一方面也比較好理解,就是大家的收入在增長,所以針對某些服務的體驗和感受也會有比較大的差異。

第二、海量數據。這些數據的體量是非常巨大的,就支付本身而言,它的數據體量都是十分龐大的,每一筆支付,或者是每一次用戶點開一個二維碼去付款,這背後的數據量是非常多的。但是支付和電商不太一樣的地方是,如果你把它剖開到更細化的場景來看,其實每個細化場景裏面的數據量又不是特別多,比如說前面講的保險,把數據量拆分到某個險種本身,它的數據量並不是那麼足夠,這個不夠是指面對中國這麼多互聯網人羣來看它又是不夠的,它是一個比較好的矛盾體組合。

第三、業務多樣性。業務端前面已經講過了,它不是傳統的電商,只以單獨的 CTR 預估爲場景,就可以做很多相關的事情。金融場景裏面,也要做 CTR 預估,要做用戶拉新和增長,做完用戶增長之後,就要考慮怎麼去把這些用戶轉化成金融場景中的用戶,所以它的業務會是多樣性的。

第四、系統風險。其實最大的風險還是系統的風險,我們希望今天做的事情,能夠防範系統風險。比如說我們不希望用戶 A 的本身最大能承擔金額只有 800 塊,他已經在某家銀行或者某個金融機構裏貸出了 800 塊,同樣的用戶 A 又跑到另外一個互聯網金融公司再去貸款 800 塊,這肯定是不合理的,因爲他的履約能力只有 800 塊,今天已經有個金融機構給了他 800 塊了,他跑到你這來,如果你還貸給他 800 塊,這樣對整個大盤而言是個巨大的風險。如果整個大盤垮了,沒有任何一家能夠獨活。

最後,就是怎麼去防範系統性風險。這也是我們面臨的一個巨大的挑戰,強安全性肯定是十分必要的。所有的金融相關的數據和電商數據比起來,對安全和隱私的重視程度肯定會更高一些,大家都知道,金融數據本身比電商數據含金量更高一些,個人信息的敏感程度相應來說也會比較高,所以挑戰也比較大。那我們要如何去應對這些挑戰呢?我們來看下螞蟻打造的金融 AI 的能力。

金融 AI 的能力

我們需要依賴很多信息、計算力去構建一些 AI 算法。這裏所展示的所謂的金融算法,是比較偏向機器學習算法的。這裏列了很多像自動機器學習(AutoML)這樣的算法,那麼,我們爲什麼要去做 AutoML?原因在於,首先,我們有很多比較分散的場景,無論是螞蟻金服還是 360,或者其他別的公司,相信在面對那麼多複雜的場景時,並沒有那麼多的算法工程師可以投入;其次是這幾年算法工程師的人力成本漲幅很快,在高校裏面這個趨勢更爲明顯。你去招聘時會發現現在市場上已經沒有做工程的人了,這個講起來其實挺可悲的。學校裏所有人都在做算法,這也不太正常。我們自己也在和自己革命,我們在思考可不可以做一些自動機器學習方法,在一些場景中,用算法去替代人工,或者至少讓算法在這樣的場景裏面能夠給人工提供比較好的 Baseline。

圖推理,也是這幾年學界比較火的一個議題。以前大家傳統的做法是把一個樣本輸到一個模型裏面,這種方式比較合理,將這種以圖構圖的方式輸入到神經網絡裏面,能做的事情會更多一些,這也比較符合大家對強社交關係的認識。比如說你想預測自己的收入,那就把自己身邊最好六七個朋友的收入做個平均,基本上和你的收入非常接近,準確率能達到 80% 以上,這也是圖技術能夠應用在 AI 裏面的一個很重要的一點。

然後再來說說 隱私保護,可能在三四年前大家對隱私保護關注還比較少。可能因爲去年 Facebook 事件出來以後,以及國內相應的一些法律法規相繼推出來以後,大家對隱私保護關注越來越高。

另外,模型的可解釋性和信息連通也尤爲重要。無論一家企業做得多大,還是會在某些點上存在很大的信息孤島。比如我們跟其他的一些金融機構相比,可能我們有很多電商類的數據,而傳統金融機構有幾個很大的數據庫,例如收入數據和公積金數據。那麼,怎樣才能把這些數據孤島打通也是一個很大的挑戰。同時,我們希望能夠對算法提供一個可解釋性,能夠運用一些方法去對模型本身去做一些解釋,希望將人和機器能夠更好地結合起來。

至於其他的內容,如自然語言處理、圖像 CV、生物識別、基於企業圖譜的信息服務,還有爲用戶提供更好體驗的機器人服務等,我們會將它們打包成一個叫“金融大腦”的產品,用於服務各式各樣的場景,比如智能理財、智能風控,也會服務我們自己內部的一些場景,以及我們的合作伙伴。

金融 AI 的落地應用

接下來我會具體講一講螞蟻是怎樣運用這些 AI 技術的。

智能風控

這裏面列出了一些 case,解釋下如何利用深度學習技術去做智能風控。傳統的風控技術很多都是基於規則、基於經驗或基於傳統的機器學習在做。我們在思考,如何在不犧牲打攪率的情況下(不經常去打擾用戶),用一些深度學習的方法去提高機器學習的精度和準確率。

智能風控主要應用的是業界講得較多的圖神經網絡(Graph Neural Network)和傳統的 GE(Graph Embedding)。應用這類圖學習的好處是這些數據在工業界和學術圈都是天然存在的,大家只要利用某個機構的一些服務,然後與服務建立鏈接,就可以在這個服務裏合理地去構建出一個巨大的圖。有了這個圖以後,大家自然而然地就會去思考有沒有辦法在圖上面去進行機器學習,也就是深度圖學習。我們自己也是在這樣的圖數據上面去搭建相應的框架。因爲所有 AI 算法都要跟這個工程去做結合。我們搭了這樣的一個框架,框架本身做的事情相對來說是比較靈活的,所以你可能要提供豐富算子,讓算法工程師能夠很好地基於這個框架搭出各式各樣的算法。這樣的圖學習技術可以應用到金融相關的一些風險中,比如有效打擊騙保等,同時這樣的技術也可以很好地去增加授信。

圖表徵學習也跟前面提到的 AI 方法沒有太大區別。所有的 AI 的方法,最後都是希望能夠用一個向量去表徵,把向量送到一個模型裏面去進行學習,傳統 CNN 和 RNN 其實更多地是處理圖像和文本,至少目前可能無法更好處理這種複雜的異構圖。因此我們希望能夠構建這樣一個圖數據,其中的節點和邊的本身都可以用向量去表徵。也就是把這樣的深度網絡的結構送進去,通過相應的函數去做相應的運算。最後得到的結果是:每個節點上可能會有一個 Embedding,或者每個邊上會有 Embedding,或者預測這些邊是不是存在,通過這樣的方式生成一些 Embedding。

訓練架構,這裏存在的一個難度較大的問題是如何去做一個圖存儲。業界有很多人在做這種相關工作,哪怕最簡單的怎樣合理地把一個圖切分成多片存在多個機器上,這個問題有很多人在研究。圖切割這個問題本身也並不簡單。

具體來說,我們的算法庫既支持這種無屬性的網絡,就是節點和邊上它是沒有屬性的。慢慢地我們也可以支持有屬性和異質網絡。再往後,我們還支持了知識圖譜。所以我們的算法庫涵蓋了從無屬性網絡到知識圖譜這樣比較豐富的算法庫,從而提供給業務同學,讓他們去合理地使用這裏面的算法。

我們自己本身也希望能夠提供一個比較好的可解釋性,在這裏面用的比較多的就是業界廣爲流行的 Attention 機制。除了有 Attention 之外,我們還希望能夠對寬度和廣度做到自適應,並且它能夠對圖上面這些 Path 選出來一些比較重要的路徑。這麼做的好處就是,當我們把這個呈現給業務線同學時,他們就能合理地分析出商家所做出的行爲背後的原因,爲他們後續的工作提供靈感,這樣做也能比較好地實現人機協同。我們認爲,人機協同在整個 AI+ 金融裏面,都是非常重要的環節。讓人與機器完全脫離還是比較困難的,如今的一些算法能爲他們提供靈感,幫助他們更好地完成交互,這對算法本身也是一種促進,算法能結合場景得到一個很好的提升。

前幾年,支付寶做了很多線下支付的營銷。我們不能給所有的商家都發同樣的獎勵,這是不合理的。我們希望給那些參與度更高的商家發放更多獎勵金。所以這裏會用這樣的一個圖去找出哪些人是更活躍商家,哪些人對金額本身更敏感一些,以此來節約營銷成本。用這種方式,公司能夠用同樣一筆錢,讓這個活動多持續半年或者一年的時間,這是它的一個很重要的現實意義。它的另一個意義在於,我們今天去做企業授信會有很大的困難,由於數據的缺失,我們沒有辦法判定這個企業是不是有相應的一些上下游。我們自己做過一個數據觀測,如果一個企業有相應的上下游,那麼這個企業的還款能力和還款意願也會更強一些。所以我們就在思考能否利用圖的一些算法更好地去刻畫這種上下游關係推斷,去預測這些企業之間是不是存在一定的上下游。如果把企業換成個人,對個人的識別更精準些,能做的事情也會更多些。

同時,除了以上落地場景以外,我們還落地了更多場景。比如螞蟻金服每年都會進行的五福紅包,後面會有一張刮刮卡,其實我們的目標是提升覈銷率,以及在線下商戶去做一些拉新。還有當下比較火的刷臉支付,除了生物特徵上識別“你是你”之外,有沒有辦法在生物特徵之外的地方也用圖方法去做更好的輔助進行驗證。在應對欺詐方面也做出相應的動作,比如如果一個節點是黑的,那很大概率它的周邊以及周邊的周邊也是黑的,比如說怎麼去識別欺詐中介組織等等。利用這樣的圖方法可以使資產損失率也能有效下降。

智能營銷

智能營銷除了前面講的機器學習的應用之外,這裏主要想講的是圖像和自然語言處理結合的方式。

智能營銷無非就是創意、渠道和人羣三者之間的笛卡爾積。那麼如何把這件事做好?人羣其實是固定的,所以要考慮如何在 AI 和創意間做些結合。我們想到的就是把文案和圖像之間做個聯動。過去很多營銷文案都是由營銷專家自己去寫的,我們希望之後對圖像有些理解之後,能夠和文案本身去產生一些聯動。原因是因爲我們自己有着大量的金融語料,其次,我們也累計了很多泛行業營銷的模本。同時經過多年的積累,我們自己也有一些廣告術語,通過一個強化學習這種方式,以及後面可能會講到的用類似這種 Bert 這樣的模型去生成智能創意。以下是兩個案例:

通過這種方式,最終爲運營人員提供適當的文案,讓它能夠更好地生成創意文案,幫助他們去做營銷。

智能保險

我要講的第三部分是智能保險。智能保險用在理賠上時,怎麼讓理賠的效率更精準、更快。我們自己推出了理賠寶這樣一種相互保障的產品。我們在尋找有沒有一種方法將 AI 和人結合起來,去提升理賠的效率。我們在想能不能用圖像的 OCR 識別去抽取出來其中的一些相應些信息。這種信息多數涉及病情,如果在背後做一個知識圖譜,在圖上去做查詢,或許能夠比較好的去幫助理賠人員提升效率。

技術本身就是想要達到一個更好的理賠效率。在此過程中積累的大量數據對於 AI 模型本身的進化也是很大的一個助力。同時在圖譜平臺沉澱下來一些經驗以後,在相互保理賠時就不用人工做出判定,系統就可以自動判定理賠是否合理,這樣保險業務本身也能發展更快。

智能客服

第四部分是智能客服。前面做了很多都是想讓 AI+ 金融服務能夠有個更好的體驗。這也是業界很多公司在做智能客服和智能助理相關工作的原因。

我們從 2015 年開始做智能助理,中間用了很多 AI 技術,目的是想提高自動佔比比例。希望能夠通過 AI 的方式,更直接、更快速地去回答問題,而對於某一些比較難的問題,我們還是會有一部分人工去做服務。

今年,我們也把這種服務對外賦能,主要是通過釘釘這種方式,讓其他企業能夠具備智能客服的能力。裏面用的技術很多都是自然語言處理相關的一些技術。

智能金融

最後,講一下智能金融。這裏講的是中國農村最大的一個普惠金融機構之一,叫做中和農信。在中國農村很多地區,很多人享受不到金融服務,我們自己也做過統計,如今全世界的成年人裏面還有 50% 享受不到金融服務,這個數字放到中國的農村比例會更大。我們想跟這樣一個金融機構一起,把它原來傳統的信貸模式做一個升級。它原來傳統的信貸是通過線下人工走訪的方式放貸。所謂人工走訪,就是有一批信貸員去問借貸人一些問題,基於他們自己的行業經驗和理解,去判定這個人應該授信多少,他的風險利率是多少。這個模式的好處是經常在人羣中走動能積累更多經驗,這種經驗會在其中起到一定作用。但同時它有一個劣勢,首先是它無法大規模擴展,如果想在中國鄉村去廣泛推廣這種服務,除非招更多的人,否則是做不到的。但人多了以後,也會帶來效率、風險上的一些問題。

我們是想把這個模式變成線上完全自動化的模式,做法就是把我們的信息和對方信息,通過一種叫做共享智能,或者隱私保護共享學習的方法,結合到一起。在保護了數據隱私的情況下,能夠做到數據可用不可見,用這樣的方式共同構建一個 AI 模型,再把這個模型的結果給到中和農信,部署到線上,讓中和農信可以基於這種線上方式去對農村信貸進行升級。通過這種方式,能夠很好地把這個模式推廣到全國更多的機構中,同時它本身也具有很強的示範意義,因爲中國農村的很多地方確實需要一些普惠金融服務,可是卻享受不到,通過這種服務他們能更好、更合理去享受到這種金融服務。

總   結

總體來說,AI 和金融是相輔相成的。就像我們之前講的很多案例,AI 可以通過 Graph Neural Network 或其他深度學習方式提高風控能力。比如在公司的授信金額在提升,營銷資金的節省上面,還有打擊黑灰產的程度上面都比較有效。它能比較好地與金融場景結合,在效率和體驗上,能夠給用戶提供一個更快、更精準的一個服務。

金融爲 AI 提供的場景比較多,不像傳統的電商就幾個主場景,但是這個裏面其實每個場景都不一樣。再舉個例子,在支付裏欺詐你的人,在信貸裏不一定會再去欺詐。這樣就牽涉到一個問題,就是 Label 的定義也不一樣,數據的定義也不一樣,看起來很大的一個數據量的情況下,切分到一些小的場景裏面,數據量並不是那麼完美,甚至在很多的地方,我們還沒有 Label,比如說我們現在正在做的用 AI 的方法去打擊欺詐,實際上我們是沒有這方面 Label 的,因爲欺詐的數據很多不在我們體系範圍之內,是需要全社會全行業共同去打擊的。

那麼如何解決這個問題對 AI 本身來說也是一大考驗,但同時也會帶來機遇。比如說前面講的網絡,如果把網絡考慮成動態的話,它會更復雜一些。怎麼用動態的網絡去構建一個模型?這本身也是一件難度非常大的一個事情。因爲規模和數據量一旦很大以後,哪怕做一個簡單的查詢,本身難度都非常大。

如果樣本量、特徵量翻個十倍一百倍,哪怕一個最簡單的線性迴歸、邏輯迴歸,也是一件難度非常大的事情。這背後又會牽扯到另外一個問題,今天可能有方式方法去應對這個大規模問題,然後申請了一堆機器放在那,那堆機器也是有成本的,怎麼讓那些機器的成本降得更低,讓那些機器的使用率上升上來,它絕對不是一個單點的問題,不是單點的算法問題,也不是單點的業務問題,而是一個系統性的問題。

還有對抗性問題。其實今天大家所用的每一筆支付、每一筆業務,都是人和系統背後的對抗。可能今天服務量越來越大了,那這個系統能不能撐住,今天是否有些人想在裏面薅羊毛,有些人是否能在裏面享受正常的服務,都是人和系統的對抗。還有個需要考慮的問題是人機協作。

從我們的觀點來看,至少在短時間內,在金融場景裏面很難把人給剔除掉。我們現在所做的很多事情都是想讓人和機器在當前情況下能更好地結合,讓 AI 的方法能夠提供一些靈感、一些觀點、一些解釋性,能夠幫助運營人員,策略人員從業務的角度提煉出更好的模式給到用戶,同時把這個正反饋建立好之後,也有助於 AI 能夠更好地落地。

當然,如何解決 AI 應用在金融領域中面臨的公平性、隱私性也是當前一大挑戰。正是有了這些機遇和挑戰,國內這幾年纔有越來越多從業者願意來了解金融智能領域,願意一起去攻克面臨的問題。金融行業至少在整個世界行業來看,這個數字化程度是最高的,如今我國的智能金融領域還是走在世界前沿的,沒有樣本可以去模仿,那麼企業要怎麼去做金融 +AI 創新,就存在着巨大的挑戰和機遇。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章