香儂智能投研輿情項目:自主創新5個系統只爲更準確的輿情分析 |百萬人學AI評選

2020 無疑是特殊的一年,而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上,CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級,設立了「AI優秀案例獎Top 30」、「AI新銳公司獎Top 10」、「AI開源貢獻獎Top 5」三大獎項。我們相信,榜樣的力量將成爲促進AI行業不斷髮展的重要基石,而CSDN將與這些榜樣一起,助力AI時代的”新基建“。

活動官網:https://bss.csdn.net/m/topic/ai_selection/index

申報地址:http://csdnprogrammer.mikecrm.com/WpA03hJ

一、公司簡介

香儂科技2017年12月註冊成立於北京,主要技術領域爲自然語言處理,2018年1月獲得紅杉投資的數千萬人民幣天使輪融資,2018年9月獲得紅杉資本領投的1.1億元A輪融資。

創始人兼CEO李紀爲,本科畢業於北京大學,博士就讀於斯坦福大學,是該學院歷史上用時最短的博士學位獲得者。在全世界所有自然語言處理領域的學者中,頂級會議論文第一作者數量排名全球第一,同時也是論文引用量最多的學者之一。創業前,先後在微軟研究院 (MSR),Facebook人工智能實驗室(FAIR)從事研究工作。近兩年先後榮獲《福布斯》“30位30歲以下精英”,《麻省理工科技評論》“35歲以下科技創新35人”,《財富》“40位40歲以下商界精英”,“中國青年科技創業者30人”,“中國海歸科技創業者100人”等十餘個獎項,並受聘擔任清華大學互聯網產業研究院研究員,智源人工智能研究院青年科學家等職務 。

目前主要將人工智能技術應用於金融領域,提供全球資本市場信息智能服務以及智能投研輿情項目服務,致力於爲金融行業從業者提高信息獲取能力、基礎數據支持及智能技術服務,以便讓相關從業者可以及時掌握、瞭解行業、企業動態,爲金融資產管理、風控評級、行業研究、投資決策等各類金融業務賦能。

 

二、案例詳情

產品詳情

爲更好滿足客戶對智能投研輿情項目實時性和準確性的需求, 香儂科技在以下5個系統中進行了技術的自主研發和創新。分別爲: 

  1. 信息採集系統
  2. 金融實體識別子系統
  3. 輿情分類子系統
  4. 輿情事件子系統
  5. 輿情信息摘要

自創數據採集系統——雷霆,雷霆的優勢在於可以構建任意規模和任意目的的爬蟲,實現了URL邊界理論,這個理論可以幫助解決“何時抓取下一個URL”,“下個抓取的URL是什麼”,“檢查抓取結果”等問題。除了信息採集之外,針對響應每5min的刷新頻率,香儂科技採用了流式處理的方式,以及通過Solr構建Hbase的二級索引,加快查詢速度。

香儂科技依據行業需求創新開發了針對金融領域的實體識別系統。實體識別系統由四部分組成:定製化細粒度實體識別,實體指代消歧,數據庫實體鏈接,領域知識圖譜。通過對金融文本進行信息抽取,能夠擴展可用的信息,幫助提高輿情繫統的整體表現。

在命名實體識別中,我們將香儂科技於2019年提出的基於中文字型的深度學習模型Glyce和谷歌於2018年提出的預訓練雙向句子表示編碼器BERT結合起來,並且將Glyce-BERT引入到命名實體識別模塊中去。Glyce-BERT模型的引入提高了命名實體識別模型的準確率,並且增強了線上識別模塊的魯棒性。

對於實體指代消歧我們提出了基於注意力機制的指代消解模型。模型主要採用了自注意力機制對文本中重要的上下文進行建模。

在數據庫實體鏈接中,我們結合線上輿情繫統的實際需求和計算機的相關技術,研發了數據庫實體鏈接模塊。1. 採用了動態更新的數據庫作爲外部的數據庫。2. 研發了領域內新詞發現工具。3.採用深度學習的分類模型對文章中出現的命名實體和知識庫中的候選實體進行鏈接預測。

在輿情信息摘要中,提出基於問答模型的關鍵詞摘要抽取技術,利用問答模型精準定位關鍵詞的起始位置,從而給用戶呈現最關鍵的信息。

 

技術投入2000萬

 

三、典型應用場景

智能投研輿情項目,之所以做這個產品,是因爲除了一級市場和二級市場公開的信息外,目前市場上跟金融相關的第三類渠道數據量越來越多,這些信息在一定程度上影響了投資決策但又不屬於市場統計範圍之內的數據,是智能投研、金融輿情的原材料,但以新聞輿情、財經資訊報道、自媒體言論等爲代表的第三類渠道信息很多並沒有被相關領域的從業者重視。香儂科技認爲,智能投研所揭示的規律實際上是一種“變量間的相關關係”,而不是準確的因果關係,所以對於信息關係的掌握度越完善,越能有效的把控投資決策的走向。

因此,香儂科技內部專業金融業務專家在充分了解金融市場運行和客戶需求的基礎上,結合技術對於所有的第三類數據進行了處理。他們會從海量新聞中識別出對應公司,同時運用自然語言處理技術自動識別出行業標籤和事件標籤,目前香儂梳理出了將近 200 個公司事件標籤,基本上涵蓋了所有重要的金融事件,比如生產情況、供給情況、併購情況等,通過打上這些事件標籤,可以迅速的幫助投資者瞭解新聞內容,同時用於新聞篩選、風控和投資。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章