大咖 | 三年拿到斯坦福CS博士的創業者李紀爲:AI如何賦能金融

大數據文摘授權轉載自數據派THU

人工智能和金融,法律、醫學等傳統領域密切聯繫,金融科技正以前所未有的速度改變大衆認知,這不僅驅動了傳統金融業轉型升級,也催生了諸多新金融業態。

本次清華大數據“技術·前沿”系列講座,我們榮幸地邀請到了香儂科技CEO李紀爲博士,他從金融數據的獲取、金融數據非結構到結構化、金融實體的用戶畫像等方面爲大家分享了AI如何賦能金融。

公衆號後臺回覆“賦能金融”下載PPT全文

李紀爲:

今天非常有幸能跟各位探討如何把人工智能的方法和知識,如語音、圖像和自然語言處理等技術應用在金融領域。

在信息爆炸的時代,金融從業者的數目和其工作負荷量均逐年上升。從業人員如何在衆多渠道中準確、快捷地獲取需要的信息,並做出相應決策,顯得尤爲重要。其中找信息和根據信息做出交易決策分別對應AI裏的不同應用。

金融應用的直接的體現爲股票、國債、貸款、固定收益、股權投資、主權基金,大宗商品、金融衍生品等,這些是金融實體的載體,比如說股票,它背後對應的是上市公司。如果要預估一個股票的漲跌,最重要的是瞭解它背後的金融實體發生了什麼事,涉及到公司的收入、歷史、運營情況,以及在整個大環境下,國家的金融趨勢。其實就是涉及到對於不同金融實體的用戶畫像,即它們發生了什麼,從何處獲取這些信息。

交易類型連接的是金融實體和客戶。從金融角度,我們需要從廣泛的數據源裏提取需要的信息,使整個過程變得有序、方便、及時和準確。從技術角度,應用人工智能技術,涉及到圖像、自然語言處理等。從服務角度,提供什麼樣的服務取決於用戶需求。

接下來我們探討技術和落地場景的結合。我們並不缺少金融信息,卻很難獲得想要的數據,它們隱含在網上,可用性比較複雜,需要從非結構化變成結構化,如用算法把PDF、照片、表格等還原成文本數據,目前主流的解決辦法是先把PDF變成圖像,然後對該圖像做解析,在圖像裏面獲得所需要的文字或表格。

其中涉及大量的圖表和文字的識別。舉一個例子,將PDF中的表格轉化爲Excel形式。從圖像處理的角度,第一步,把PDF轉成圖像,先把像表格的地方抽取出來。第二步,獲取到該區域之後,把圖像裁出來,再用圖像處理。要把表格的位置從PDF裏面裁出來,還是一個比較複雜的過程,需要標註很多的數據,比如這個表格的上下文。

當把該表格區域提出來時,還要識別裏面的單元格以及單元格的文字,除此之外,單元格還可能涉及到大量的合併情況,需要運用比較複雜的算法。爲了避免亂碼,主流的解決辦法是直接把它轉成圖像。

利用信息抽取的辦法,我們可以把不可用的信息變得可用。用一個簡單直觀的算法直接把文本信息變成結構化的數據,比如,通過模型或算法就能自動地反饋出來想要的某些金融的數據指標。

其中涉及到自然語言處理的算法,其中一個模式是序列標註,可以用一項基於CRF的模型。CRF給出一個字符串,可以挑裏面字符串的子串是否對應某一個或者幾個不同指標。序列標註和問答在算法層面上處理的方式有所不同,如果兩個模型得出一致的結果,我們就認爲找到了對應答案。

從算法的層面,我們要抽取誰在哪裏、做了什麼。背後的算法相對複雜,原因就在於“做了什麼”,人們可以做的事情非常多,難以在基於學習或者監督學習的體系框架內把這些不同類別的事件聚類。

除此之外,即便事情屬於同一類,也有好壞之分。我們難以拿到大量的標誌數據,既沒法對這些事件進行全面定義又沒法提出非常明確的標註細則。一旦沒有標註,我們就沒有訓練數據,沒有訓練數據,就很難去訓練基於監督類型的模型。

其背後涉及的算法叫做“human-in-the-loop”,如果把整個算法變成一個圈,人就在裏面不停地干預。

第一步,可以對整個的文章以及裏面的詞、句和句法結構做無監督的聚類,比如LDA、PLSA或者是基於詞向量的LDA等。而無監督的聚類算法有時不靠譜,需要通過人爲標註瞭解類別是否有意義。

第二步,基於之前的標註,把標註的結果跟模型融合一起,可以再運行一個無監督的聚類。不斷重複這個路徑,模型迭代的結果會越來越好,人爲標註的曲線和模型運行出的曲線開始逐漸趨近,得出不同的算法背的真正類別。從算法的角度講,這個辦法避免了大規模的人爲標註的成本。

除此之外,實現方法還涉及語音相似度的分析、目標的檢測、爲用戶提供的服務方式等。

應用場景有很多。第一個例子,我們假設在非洲國家買國債。非洲國家的宏觀經濟數據或不披露,或存在報假情況,很難找到明確的指標,我們可以應用人工智能,比如大量的衛星雲圖的圖像,2016年《Nature》裏的相關文章指出這個國家的GDP、國情、人民生活水平甚至和晚上這個國家燈火的亮度有一定關係,我們可以把類似的情況落地,對它的GDP、CPI做宏觀分析。

第二個例子,企業的風險畫像。針對中小企業提供貸款擔保和偷稅問題,我們有兩個維度可以衡量,一個是中小企業貸款時候聲稱的收入,另一個是可以找到企業所交的稅,通過企業交的稅反推出它今年大概的收入。從網上去找到大量的不同維度的數據,如公司法務、人員、行業的用戶畫像等就能夠描述出來。

把技術手段和應用場景結合起來,從大量的數據源中提取有意義的信息,我們就可以提供大量的知識體系和信息爲金融賦能。

【今日機器學習概念】

Have a Great Definition

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章