金融投資新範式,一場人工智能技術帶來的進化

因技術變革而至的金融科技是當前的一個熱門話題,在過去幾年中呈現運動式發展,除了百度、阿里、騰訊等互聯網公司,銀行、證券、保險、基金公司等傳統金融機構及其他科技企業都被捲入這場變革式洪流之中。

那麼,人工智能作爲金融科技的一個重要分支,在金融投資領域能起到什麼樣的作用?當下的真實市場需求又是怎樣的?6 月 24 日,由路孚特主辦的 ReFinTech 大咖直播室邀請了創新工場南京 AI 研究院執行院長、倍漾科技創始人馮霽博士 和 路孚特中國區財富管理業務發展總監趙玉成,從金融投資的業務出發,爲大家分享了人工智能在金融投資領域的應用和發展。

以數據解讀金融投資領域的業務場景及痛點

機器學習已經成爲金融機構投資決策的重要環節

路孚特於 2018 年完成了從湯森路透金融與風險業務部門獨立成爲路孚特的轉變。這家 160 多年曆史的金融科技企業,爲全球 190 多個國家的 4 萬多家機構和 40 萬用戶提供金融信息服務。同時,在路孚特金融開放平臺上,超過 1 萬 3 千名開發者和 2200 多家合作伙伴,以安全、有效、高效的方式,共同構建着金融行業的業務發展以及其各項創新。

這家在金融科技領域有着深厚積澱的企業,對機器學習領域在金融領域的應用已探索四年有餘。去年,路孚特開始對 447 位數據科學實踐者和擔任 C 級高管的數據科學決策者進行了陸續的電話採訪,這些受訪者全部來自於年收入超過 10 億美元的金融機構。這次調研的數據清晰地反映了一個事實:機器學習已經成爲金融機構投資決策的重要環節。

基於路孚特此次市場調研,路孚特中國區財富管理業務發展總監趙玉成爲我們分享了在機器學習領域中金融機構的新動態:

1、國際上大多數金融企業已經開始部署 AI/ML 的業務,就應用 ML 技術而言,風險規避和性能管理是最受關注的兩個主題領域。

  • 90% 的企業部署了 ML 來管理或分析組織中的一個或多個部門的內容;

  • 78% 的調查者反饋,機器學習是其業務戰略的核心組成部分。

2、金融機構利用機器學習的主要原因是:更好的獲取信息 / 洞察和提高生產力,而不是成本削減。

3、數據的可發現性和質量是採用人工智能的最大障礙。

  • 43% 的調查反饋數據質量差會影響他們採用;

  • 38% 的人認爲缺乏數據可用性會影響他們對 AI/ML 的採用。

4、數據科學家花了很大一部分時間整理數據,才能將數據用於機器學習。

5、數據科學家是一個相對較新的終端用戶羣體,擁有重要的決策權。

  • 98% 的數據科學家說他們影響了用於實驗機器學習數據內容的決策;

  • 95% 對購買哪些金融市場數據有一定影響。

6、客戶正在使用機器學習從非結構化數據源(文檔、文本和 web 抓取)創建結構化數據。

趙玉成在直播分享中表示,越來越多的金融機構開始將機器學習投入到業務中。大多數金融機構已經經過了試驗階段——其中 90% 的人表示他們已經部署了機器學習來管理或分析組織中的一個或多個部門的內容。

就應用機器學習而言,風險規避和性能管理是最受關注的兩個主題領域。在路孚特的調研中,82% 的機構將機器學習應用於風險控制領域,其次用以支撐投資決策及市場分析的機構佔比 74%,63% 的金融機構則使用機器學習或者人工智能來做交易分析和交易行爲。

趙玉成指出:“數據是最大的挑戰。”金融機構在尋找和處理可以映射到解決方案的數據時面臨的主要挑戰通常有以下幾點:

  • 獲取關於數據覆蓋範圍、歷史和來源的準確信息;

  • 識別不完整或損壞的記錄;

  • 數據管理、頻次;

  • 數據清理和標準化。

金融機構使用的數據通常分爲三類:一是基本數據,二是客戶內部數據,三是另類數據。客戶內部數據又主要分爲金融機構資料信息、客戶的使用狀況、潛在客戶信息、客戶購買和投資產品、客戶投資業績等。這類數據私密性比較強,一般的情況下,公司不會對外披露或對外展示。因此,這類樣本數據量相應不是很大,對中等或者小型公司而言尤爲明顯。在此類投資信息較少的情況下,不少金融機構希望通過工具幫助自己的客戶做出更好的投資組合,同時還能監控風險。

趙玉成談到:“路孚特在過去一段時間裏做過類似嘗試。我們會將用戶(金融機構)的數據部署到 Client Data Warehouse(客戶數據倉庫)系統,助其建立數據中臺的概念。與此同時,再將數據與路孚特的實時數據、價格數據、基本面信息以及預測數據進行匹配,做內部系統分析,其中包括投資流程、收益狀況、風險指標,以及針對歷史投資行爲的投資畫像,從而幫助金融機構更瞭解自己的客戶,爲其客戶提供更好的服務。”在整個過程中,金融機構的數據被掛在雲端,通過加密、解密的過程展示出來,趙玉成表示:“這種處理方式也是我們內部數據的一種解決方案。”

另類數據的應用

在量化交易中,如何獲取適當的數據用於開發和測試交易策略,往往是投資者面臨的一個難題。儘管隨着技術的發展,獲取大數據的成本也在逐漸降低,但歷史價格等傳統數據已經不能滿足部分投資者的需求,於是從另類數據中提取交易信號成爲了有效提升投資回報的另一種嘗試。

不同於傳統的交易所披露、公司公告披露的數據,另類數據包括個人的消費信息、社交媒體信息、地區的天氣狀況、公司的銷售記錄等,來源豐富多樣。它使得越來越多以前無法收集的信息變成了可以分析的數據 ,而從這些雜亂無章的信息中找到規律的能力也變得無比強大。

據瞭解,路孚特對另類數據的處理和研究已有五年多的歷史。2015 年,路孚特收購了一家名爲 Asset 4 的公司,該公司的 ESG(另類數據的應用)在當時處於前沿地位,關於上市公司對市場環境損害的情況、社會治理(如員工治理、公司內部治理、男女比例、高管信息)等,其都有一套標準的數據分析及評分體系。在收購 Asset 4 之後,路孚特將該系統進行了整合。目前,路孚特的數據分析已經涵蓋了全球市值 80% 的股票。

趙玉成表示:“現在 ESG 數據中有 400 個指標,我們會把其中 20 個指標作爲評分的標準,通過 ESG 治理,判斷哪些數據符合 ESG 標準,判斷公司治理是否健康,是否能實現持續發展。經過 ESG 評分後,我們會以此對股票進行分類,利用路孚特自己的服務器形成一個具備多元化和包容性的投資總和。可以看到的是,符合 ESG 標準股票的走勢要遠好於整個市場的平均狀況。”

在金融投資領域,衛星圖像、社會情緒等另類數據也開始備受關注。目前,路孚特的數據包含了大量的社交媒體數據,通過輿情監控藉助機器學習計算整個情緒變動,藉此對投資策略進行調整。此外,藉助衛星雲圖數據,通過金融數據及其他信息,利用機器學習算法找出一些歷史變化規律,例如估算美國一段時間內的降雨量,再進一步判斷出小麥的生長狀況及產量。這些信息將對投資市場的研判產生極大的幫助。

隨着技術的發展,另類數據的應用正在扮演着愈加重要的角色,成爲傳統數據的重要補充以及投資者提升決策質量的利器。但由於其分散且不完整,數據週期有階段性、不連貫、結構鬆散,且沒有標準化的統一結構。這使得將另類數據納入投資決策過程難度極大且成本高昂,企業需要在將數據納入系統進行分析之前,找到數據來源,收集並清理質量不一的數據並進行標準化處理。路孚特則通過提供越來越多不同類型的高質量另類數據,幫助用戶解決難題,將另類數據以現成可用的格式提供,可以輕鬆整合至用戶的模型與應用中。

基於數據驅動的下一代金融投資範式

軟件工程從 1.0 時代邁向 2.0 時代

創新工場南京 AI 研究院執行院長、倍漾科技創始人馮霽博士在分享中提到:“當下人工智能技術,尤其是深度學習,與之前的機器學習相比具有三點優勢。”

1、表示學習。“深度學習技術興起之後,能夠將表示學習進行自動化發現,這帶來的好處是巨大的。首先是傳統的機器視覺領域基本上有了翻天覆地的變化。我們不用再對一個圖像定義各種複雜的特徵,我們現在可以將原始數據直接放到學習算法中去做算法任務。語音識別、自然語言處理亦是如此。”馮霽表示,同樣地,在金融行業的二級市場量化投資,一個好的表示學習能夠爲金融工程建模帶來質的提升,比如做多因子挖掘時不需要用那些傳統的人工定義的技術指標或者其他的量價關係去做,而可以利用人工智能算法找到比之前的因子更具有預測能力的信號。

2、問題轉化。“人工智能技術能夠將不少很難直接設計算法求解的問題,轉化爲一個數學優化問題。量化投資中的大量 NP 困難問題,可巧妙地轉化爲機器學習中的經典技術,從而大幅提升建模效率。”

3、數據驅動。“在量化交易中,大部分問題都是 NP 困難的,利用數據驅動的方式,可有效對複雜問題進行估計和求解。數據驅動的計算範式在近十年中的各個領域獲得了廣泛認可,也獲得了巨大成功。很多複雜的問題不再需要精心設計一個特定的算法進行求解,而是轉化爲機器學習模型,利用數據對模型參數進行估計。這是軟件工程所面臨的一個本質的變化。”

馮霽指出:”從量化建模的角度,或者說從軟件工程的角度,目前一個普遍的共識是,現在的人工智能時代相當於是軟件工程的 2.0 時代。“

對此,馮霽做了進一步解釋。在軟件工程 1.0 時代,計算機利用程序員寫好的算法處理輸入,然後得出對應的輸出。這一過程中,有價值的信息或結果基本上取決於算法本身。如何設計出一個聰明的量化交易算法是非常考驗程序員的,畢竟不同的人寫出的算法是有差異的。

而在軟件 2.0 時代,程序員可以自動化產生解決某一困難問題的算法。比如對於圖像識別任務,程序員不知道具體如何寫圖像識別算法也無妨,只需要寫好機器學習的算法,然後給計算機提供大量的圖像樣本(即數據),就可以自動生成圖象分類的程序。在這一過程中,一個困難的任務被轉化爲一個至少經過嚴格訓練就有能力進行編程的任務。馮霽補充道:“這在本質上已經產生了區別。還是以圖像識別爲例,利用機器學習無論是做人臉識別,還是做針對貓、狗的識別,其背後的流程基本是一樣的,這大幅減少了軟件工程中所遭遇的各種問題。”

人工智能在量化交易中的五大應用場景

不止是圖像識別,在最近幾年裏,人工智能已發展成爲頭部對沖基金的核心技術。國內的頭部對沖基金正在建立超算 GPU 集羣,開拓機器學習技術並應用於交易。甚至有私募機構已經把自己定義爲完全依靠人工智能做投資的對沖基金。

馮霽在分享中講到:“說到人工智能技術在量化交易中的應用,很多人會想到用 AI 方法分析市場、分析新聞等,認爲人工智能只能做這種輔助性的工作,其實這一認知是錯誤的。人工智能技術不僅能做輿情分析、提供因子等邊角料外圍的工作,它還可以深入地滲透到量化交易的每一個場景,對整個量化交易流水線中的各個環節進行範式級別的提升。”基於此,馮霽介紹了以下五個場景:

1、特徵工程
特徵工程是建立量化交易模型中的第一步,其目的是最大限度地從原始數據中提取特徵以供算法和模型使用。在傳統的金融工程中,模型的輸入只能用結構化數據,如盤口數據、量價關係、資金流向等。非結構化數據用傳統的金融工程模型很難處理,比如用數學向量表示一則新聞或者一個公告等,這需要深度學習技術對非結構化數據進行表示。

“如果我們把整個特徵工程看成是人工智能中表示學習的任務,那麼這件事就會變得大爲輕鬆。因爲我們可以將擁有的數據切換成兩個維度:一個維度是從高頻到低頻,比如從 T+0 或者 T+1 的策略到較爲低頻的策略;另一個緯度是從微觀到宏觀,最微觀的數據是盤口數據,相對宏觀的數據諸如財報、季報、基本面或者宏觀經濟等數據。”馮霽解釋道,“當把數據分成這兩個維度進行刻畫時,我們就會發現利用深度學習技術可以同時將不同類型的數據進行某種程度上的自動化特徵定義,從原始特徵中自動學習出對量化交易最有效的表示。倍漾科技和南京大學周志華教授一起,做了不少在表格數據上進行特徵重表示的研究,效果顯著。”

2、非線性多因子模型
隨着量化多因子模型的發展,因子從單一發展到多元,從線性關係發展爲非線性關係。簡單使用少量因子的線性模型已經無法適應當前複雜多變的市場環境。馮霽表示:“之前很多人還認爲線性模型足夠使用。其實這個論斷對也不對。如果低頻尺度且利用較小的樣本就可以對某些角度進行刻畫時,線性模型確實夠用;但是,一旦我們的算法或者想要解決的問題,尺度頻率變得較爲高頻時,你會發現線性模型遠遠不夠,它包含的知識有限,難以‘喫’進大量數據。因爲當算法、權股或者策略分佈在較爲高頻的尺度上時,算法準確度與模型複雜度之間存在線性增長的關係。”

馮霽指出:“在現階段,如何有效地把更多數據利用進去,其實是大家競爭的前線。如果線性模型沒有辦法’喫’進去大量數據,那麼只能選擇非線性模型做這些事情。”相比傳統線性多因子模型,人工智能機器自我學習的特性能夠幫助量化模型適應不同市場環境,深入挖掘新選股因子以及因子與股票收益之間的非線性關係,提高模型預測能力,更敏銳地捕捉未被發現的市場機會。

對於時序數據平穩與非平穩間的區別,馮霽強調:“隨着時間的推移,市場分佈產生變化時,樣本內表現平穩,樣本外表現下降,有人認爲是‘機器學習過擬合’。其實這個觀念並非很正確。因爲‘過擬合’是對用錯機器學習模型的一種描述,也就是說如果出現過擬合,並不代表機器學習這項技術不對,而是用機器學習的人把事情沒有做對。”

機器學習中專門有領域在研究當分佈發生遷移時如何抗擊過擬合。換言之,機器學習從 80 年代設立之初,其目的就是爲了避免樣本外與樣本內表現產生差異,它是爲了抗擊過擬合而產生的技術。“工業界經常有人反過來認爲,出現過擬合是因爲機器學習或者人工智能不行。對此,我在這裏想做一個澄清,其實並不是模型有問題,也許是在處理模型過程中少做了某些處理非平穩時序數據的技巧或者模塊。”

3、優化算法
傳統的線性模型或傳統的金融工程預測類模型,很難同時對多個目標進行優化求解,因爲這往往是 NP 難問題。“機器學習的一大好處便是將多目標優化問題變成利用數據驅動方式解決的問題,這樣就有可能在有限時間內得到至少建模者認爲滿意的局部最優收斂點。這樣更有利於設計一些較爲複雜的學習系統,能夠同時滿足量化交易中的不同維度的目標。”

此外,對於優化算法的端到端問題,馮霽表示:“運用機器學習的方式設計模型時,我們可以把從輸入到處理、到輸出、再到最終決策的整個過程變成一個一體化的複雜的學習系統,然後從特徵工程到最後輸出對該系統進行聯合式優化,這樣可以大幅度減少模型設計過程中遭遇的各種問題。”

最後,關於優化算法中的 AutoML 技術,馮霽提到:“該技術不僅僅是學術界的一個熱點,模型本身架構都可以利用 AI 的算法自動設計出你想要的 AI 模型,只要你有數據和算力就能做到。這也是我們倍漾科技內部的資管公司正在做的事情,即從數據處理到模型建立,再到最終的輸出,甚至於包括模型架構本身,都能夠用 AI 技術自動化完成。”

4、智能回測
通常,量化交易的回測功能會基於強化學習來實現。“回測是大部分量化交易團隊最容易犯錯誤的地方,因爲大部分算法在回測時看上去是掙錢的,但到了真正實盤交易時纔會發現有問題。”馮霽在直播中談到。

那麼,強化學習還能否應用在量化交易中?對此,馮霽爲我們作出瞭解釋:要想借強化學習產生一個合理的策略,需要在仿真的環境下將算法重複訓練上百萬遍。很多人在回測時,其實是將一個相同的歷史數據翻來覆去跑了上百萬遍,這樣產生的結果必然是糟糕的。因爲單一的歷史數據只是整個分佈中的一個採樣,是整個歷史軌跡中的一條軌跡。從人工智能的角度來講,只看到該歷史情況的發生而沒有見到其他情況,很難學習到一些有效的策略。簡而言之,如果 AlphaGo 只看一盤棋譜並且將這盤棋譜翻來覆去看一百億遍,也不會學到更有趣的招式,只有所看棋譜都不一樣才能學習到東西。“因此,如何利用這些技術,需要額外的一些手段和處理方式。倍漾科技在此類任務中,有不少新的進展,這裏就不展開介紹了。”馮霽提到。

5、算法交易執行

算法交易執行是最早受到機器學習技術的升級的一個領域,它通常用於優化交易的執行成本,降低交易(尤其是大單)對市場的衝擊,最典型的交易執行算法有 TWAP、VWAP 等。交易執行算法會根據一定的邏輯,將一個大單拆分成一個一個小單分別發送到交易所。對大型交易者來說,這樣做主要是爲了避免提前暴露自己的交易意圖,降低對市場價格的衝擊。

馮霽表示:“目前基於人工智能技術的算法交易執行,有了長足的進展,利用數據驅動的方式進行拆單,從我們內部的實戰經驗來看,衝擊成本可進一步降低一個數量級。”

寫到最後

人工智能已經參與到整個金融流程中,併產生了驚人的影響力。複雜的金融領域也在因人工智能發生着深刻的變革。毋庸置疑的是,這項技術爲金融機構帶來了更多的希望之光。唯有擁抱科技、拓展思維的邊界、利用人工智能技術並尋求創造與突破,纔是金融科技領域及傳統金融機構的持續發展之路。而業內的深度交流及實踐成果分享是促進發展的的重要途徑之一。

基於此,ReFinTech“洞見 2020”金融科技峯會在去年首次與大家見面,各位大咖在峯會中分享的金融科技產業最前沿的創新探索與應用實踐,在業界引起了強烈共鳴和反響。跨入不同尋常的 2020 年,ReFinTech 系列精彩活動還將繼續關注金融科技領域的最新動態及實踐探索,後續的精彩內容敬請期待!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章