(轉自頭條新聞)黃金搭檔:自然語言處理(NLP)+ 知識圖譜


自然語言處理(Natural LanguageProcessing, NLP,語義計算)和知識圖譜( Knowledge Graph, KG,知識計算)作爲認知智能的關鍵技術,正成爲智能金融浪潮中新的熱點。這兩種技術在金融領域的應用場景有高度的重合,往往是互爲依託、互爲補充。
當NLP和知識圖譜雙劍合璧,會優先在金融的哪些場景實現落地?各場景“標配”的核心能力分別有哪些?國內外NLP和知識圖譜技術在金融行業的應用到了怎樣的程度?讀完這篇文章,或許能幫助你對這些前沿科技中的中流砥柱有一個清晰和全面的認識。


  金融行業因其與數據的高度相關性,成爲人工智能最先應用的行業之一而NLP與知識圖譜作爲人工智能技術的重要研究方向與組成部分,正在快速進入金融領域,並日益成爲智能金融的基石。一般的Fintech公司只會集中在其中的某些業務方向,只要能深入掌握兩到三種能力,就能具有相當的競爭力。在這些業務場景中,NLP和知識圖譜技術往往需要共同應用,才能發揮出最大的效能。同時,一種核心能力可以在多個智能金融應用場景中得到應用,這些應用場景包括:智能投研、智能投顧、智能風控、智能客服、智能監管、智能運營等。接下來我們將分析不同的核心能力在各個應用場景的分佈情況,對每一種核心能力進行簡要介紹,給出它的應用場景,並列舉部分國外的典型案例以供大家能夠更好的理解和上手。



金融語義應用場景概念框

01智能問答和語義搜索
智能問答和語義搜索是NLP的關鍵技術,目的是讓用戶以自然語言形式提出問題,深入進行語義分析,以更好理解用戶意圖,快速準確獲取知識庫中的信息。在用戶界面上,既可以表現爲問答機器人的形式(智能問答),也可以爲搜索引擎的形式(語義搜索)。 智能問答系統一般包括問句理解、信息檢索、答案生成三個環節。智能問答系統與金融知識圖譜密切相關,知識圖譜在語義層面提供知識的表示、存儲和推理,智能問答則從語義層面提供知識檢索的入口。基於知識圖譜的智能問答相比基於文本的問答更能滿足金融業務實際需求。智能問答和語義搜索的價值在金融領域越來越被重視。它主要應用的場景包括智能投研、智能投顧和智能客服。在智能投研領域,投研人員日常工作需要通過多種渠道搜索大量相關信息。而有了金融問答和語義搜索的幫助,信息獲取途徑將是“ Just ask a question”。並且,語義搜索返回的結果不僅是平面化的網頁信息,而是能把各方面的相關信息組織起來的立體化信息,還能提供一定 的分析預測結論在智能客服和智能投顧領域,智能問答系統的應用主要是機器人客服。機器人客服目前的作用還只是輔助人工客服回答些常用問題、但已能較大地節省客服部門的人力成本。典型應用案例如美國Alphasense公司爲投研人員整合碎片化信息,提供專業金融知識訪問工具。AlphaSense公司的產品可以說是新一代的金融知識引擎。它從新聞、財報、研報各種行業網站等獲取大量數據、信息、知識形式的“ 素材”,通過語義分析構建成知識圖譜,並提供高級語義搜索引擎、智能問答、交互式知識管理系統、文檔(知識) 協作系統,以對金融知識進行更加有效的管理、搜索、使用。
02資訊與輿情分析
金融資訊信息非常豐富,例如公司新聞(公告、重要事件、財務狀況等)、金融產品資料(股票、證券等)、 宏觀經濟(通貨膨脹、失
業率等)、政策法規(宏觀政策、稅收政策等)、社交媒體評論等。金融資訊每天產生的數量非常龐大,要從浩如煙海的資訊庫中準確找到相關文章,還要閱讀分析每篇重要內容,是費時費力的工作。如果有一個工具幫助人工快速迅捷獲取資訊信息,將大大提高工作效率。資訊輿情分析的主要功能包括資訊分類標籤(按公司、產品、行業、概念板塊等)、情感正負面分析(文章、公司或產品的情感)、自動文摘(文章的主要內容)、資訊個性化推薦、輿情監測預警(熱點熱度、雲圖、負面預警等)。 在這個場景中,金融知識圖譜提供的金融知識有助於更好理解資訊內容,更準確地進行資訊輿情分析。資訊輿情分析的應用主要在智能投研和智能監管這兩個場景。自前市場上的輔助投研工具中,資訊輿情分析是必不可少的重要部分。資訊輿情分析作爲通用工具更多是對海量定性數據進行摘要、歸納、縮簡,以更加快捷方便地爲投研人員提供信息,支持他們進行決策,而非直接給出決策結論。在智能監管領域,通過資訊輿情分析,對金融輿情進行監控,發現違規非法活動進行預警。
03金融預測和分析
基於語義的金融預測即利用金融文本中包含的信息預測各種金融市場波動,它是以NLP等人工智能技術與量化金融技術的結合。
利用金融文本數據幫助改善金融交易預測模型的想法早已有之。本世紀初,美國就有人利用新聞和股價的歷史數據來預測股價波動。2010年後,社交媒體產生了大量數據,基於Twitter、 Facebook來預測股市的研究項目很多。最近,深度學習被大量應用在預測模型中。金融文本數據提供的信息是定性的(qualitative) ,而通常數字形式的數據是定量的(quantitative) 。定性分析比定量分析更難,定性信息包含的信息量更大。有分析表明,投資決策人員在進行決策時,更多依賴於新聞、事件甚至流言等定性信息,而非定量數據。因此,可期待基於語義的金融預測分析大有潛力可挖。這個場景中涉及的關鍵NLP技術包括事件抽取和情感分析技術。金融知識圖譜在金融預測分析中具有重要的作用,它是進行事件推理的基礎。例如在中興事件中,可根據產業鏈圖譜推導受影響的公司。基於語義的金融預測和分析在金融應用的主要場景包括智能投研和智能投顧。它的理想目標是能代替投資人員做投資預測,進行自動交易,但目前還只是作爲投資人員的投資參考。將不同來源的多維度數據進行關聯分析,特別是對非結構化數據的分析,比如郵件、社交網絡信息、網絡日誌信息。從而挖掘和展現出未知的相關關係,爲決策提供依據。典型的應用案例如美國Palantir公司提供基於知識圖譜的大數據分析平臺。其金融領域產品Metropolis,,通過整合多源異構數據,構建金融領域知識圖譜。特點是:對非結構化數據的分析能力、將人的洞察和邏輯與高效的機器輔助手段相結合起來。另一個例子如Kensho公
司利用金融知識圖譜進行預測分析。在英國脫歐期間,交易員成功運用Kensho瞭解到退歐選舉造成當地貨幣貶值;曾準確分析了美國總統任期的前100天內股票漲跌情況。
04文檔信息抽取
信息抽取是NLP的一種基礎技術,是NLP進一步進行數據挖掘分析的基礎,也是知識圖譜中知識抽取的基礎。採用的方法包括基於規則模板的槽填充的方法、基於機器學習或深度學習的方法。按抽取內容分可以分爲實體抽取、屬性抽取、關係抽取、規則抽取、事件抽取等。在這裏的文檔信息抽取特指一種金融應用場景。指從金融文檔, (如公告研報)等抽取指定的關鍵信息,如公司名稱、人名、指標名稱、數值等。文檔格式可能是格式化文檔(word,pdf, htmI等)或純文本。對格式化文本進行抽取時需要處理並利用表格、標題等格式信息。文檔信息抽取的應用場景主要是智能投研和智能數據,促進數據生產自動化或輔助人工進行數據生產、文檔複覈等。
05自動文檔生成
自動文檔生成指根據一定的數據來源自動產生各類金融文檔,常見的需要生成的金融文檔如信息披露公告(債券評級、股轉書等)、各種研究報告。自動報告生成屬於生成型NLP應用。它的數據來源可能是結構化數據,也可能是從非結構化數據用信息抽取技術取得的,也可能是在金融預測分析場景中獲得的結論。簡單的報告生成方法是根據預定義的模板,把關鍵數據填充進去得到報告。進一步的自動報告生成需要比較深入的NLG技術,它可以把數據和分析結論轉換成流暢的自然語言文本。自動文檔生成的應用場景包括智能投研、智能投顧等。它的典型應用案例如美國的NarrativeScience,它從結構化數據中進行數據挖掘,並把結果用簡短的文字或依據模板產生報告內容。又如Automated Insights,它爲美聯社自動寫出了10億多篇文章與報告。
06風險評估與反欺詐
風險評估是大數據、互聯網時代的傳統應用場景,應用時間較早,應用行業廣泛。它是通過大數據、機器學習技術對用戶行爲數據分析後,進行用戶畫像,並進行信用和風險評估。NLP技術在風控場景中的作用是理解分析相關文本內容,爲待評估對象打標籤,爲風控模型增加更多的評估因子。引入知識圖譜技術以後,可以通過人員關係圖譜的分析,發現人員關係的不一致性或者短時間內變動較大,從而偵測欺詐行爲。利用大數據風控技術,在事前能夠預警,過濾掉帶惡意欺詐目的人羣;在事中進行監控,發生欺詐攻擊時及時發現;在事後進行分析,挖掘到欺詐者的關聯信息,降低以後的風險。在金融行業,風險評估與反欺詐的應用場景首先是智能風控。利用NLP和知識圖譜技術改善風險模型以減少模型風險,提高欺詐監測能力。其次,還可以應用在智能監管領域,以加強監管者和各部門的信息交流,跟蹤合規需求變化。通過對通信、郵件、會議記錄、電話的文本進行分析,發現不一致和欺詐文本。 例如欺詐文本有些固定模式:如用負面情感詞,減少第一人稱使用等。通過有效的數據聚合分析可大大減少風險報告和審計過程的資源成本。從事此類業務的Finctech公司很多,Palantir 最初從事的金融業務就是反欺詐。其他如Digital Reasoning 、Rapid Miner.Lexalytics、Prattle等 。
07客戶洞察
客戶關係管理(CRM)也是在互聯網和大數據時代中發展起來,市場相對成熟,應用比較廣泛,許多Fintech公司都以此爲主要業務方向。現代交易越來越多是在線上而不是線下當面完成,因此如何掌握客戶興趣和客戶情緒,越來越需要通過對客戶行爲數據進行分析來完成NLP技術在客戶關係管理中的應用,是通過把客戶的文本類數據( 客服反饋信息、社交媒體上的客戶評價、客戶調查反饋等)解析文本語義內涵,打上客戶標籤,建立用戶畫像。同時,結合知識圖譜技術,通過建立客戶關係圖譜,以獲得更好的客戶洞察。這包括客戶興趣洞察(產品興趣),以進行個性化產品推薦、精準營銷等。以及客戶態度洞察(對公司和服務滿意度、改進意見等),以快速響應客戶問題,改善客戶體驗,加強客戶聯繫,提高客戶忠誠度。客戶洞察在金融行業的應用場景主要包括智能客服和智能運營。例如在智能客服中,通過客戶洞察分析,可以改善客戶服務質量,實現智能質檢。在智能運營(智能CRM)中,根據客戶興趣洞察,實現個性化精準營銷。國外從事這個業務方向的Fintech公司很多,如Inmoment,Medallia, NetBase等。各種核心能力在智能金融的主要應用場景呈以下分佈:

小結
NLP和知識圖譜兩種技術本身都還在發展成長過程中,因此在金融落地過程中勢必也還會面臨許多新的課題和挑戰,任重而道遠。一方面,人工智能必須與金融的具體業務場景切合,找到金融企業需求痛點,真正提升客戶生產效率,給客戶帶來價值;另一方面,人工智能是基礎技術學科,技術難度大,人才要求高,在覈心技術和關鍵法上需要有突破有優勢,才能不斷提升市場競爭力。所以,場景驅動和技術研發需要相輔相成、緊密結合。相信金融智能語義技術的應用將會有廣闊的發展空間,推動智能金融邁向一個新的臺階。隨着時代變化,加之自身業務拓展的需求,以提供金融技術爲核心業務的恆生電子已深度佈局智能金融領域。作爲金融科技公司,恆生始終堅持着連接百萬億、讓金融變簡單的願景和使命。在即將進入的人工智能時代,恆生將持續在人工智能應用於金融創新的征途上邁進,一如既往地用技術與金融機構緊密合作,助力金融機構建設服務平臺,並提供更加貼上近用戶需求的服務。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章