作爲國內知名算法大賽,“達觀杯”已經連續舉辦三屆,分別以備受關注的“個性化推薦“、“文本分類”、“智能信息抽取”作爲賽事主題,吸引了全球近萬名NLP愛好者的關注和參與。
在達觀杯第四年之季,主辦方達觀數據將攜手國內年度學術大會CCKS(全國知識圖譜與語義計算大會),圍繞“基於本體的金融知識圖譜自動化構建”這一主題,繼續和廣大技術愛好者們探索NLP前沿技術的產業應用效果。
任務背景
CCKS(全國知識圖譜與語義計算大會)是由中國中文信息學會語言與知識計算專委會定期舉辦的全國年度學術會議。其中技術評測旨在爲研究人員提供測試知識圖譜與語義計算技術、算法、及系統的平臺和資源,促進國內知識圖譜領域的技術發展。以及學術成果與產業需求的融合和對接。
2020年CCKS大會召開在即,並設立8個相關主題評測任務,達觀數據與百度、招商銀行、螞蟻金服、阿里巴巴等企業及各大高校研究學者分別單獨組織其中1個主題評測任務。此前,達觀數據曾在2019年用“智能文檔審閱系統”工業級的產品參與了學術評測,且僅用2周時間斬獲CCKS 2019“公衆公司公告信息抽取”任務亞軍殊榮,如今在2020年以評測任務組織方的身份,再次參與其中,併發布了以金融行業研報爲數據基礎的“基於本體的金融知識圖譜自動化構建技術評測”任務。
任務介紹
金融研報是各類金融研究結構對宏觀經濟、金融、行業、產業鏈以及公司的研究報告。報告通常是有專業人員撰寫,對宏觀、行業和公司的數據信息蒐集全面、研究深入,質量高,內容可靠。
報告內容往往包含產業、經濟、金融、政策、社會等多領域的數據與知識,是構建行業知識圖譜非常關鍵的數據來源。另一方面,由於研報本身所容納的數據與知識涉及面廣泛,專業知識衆多,不同的研究結構和專業認識對相同的內容的表達方式也會略有差異。
這些特點導致了從研報自動化構建知識圖譜困難重重,解決這些問題則能夠極大促進自動化構建知識圖譜方面的技術進步。
任務要求
本評測任務參考TAC KBP中的Cold Start評測任務的方案,圍繞金融研報知識圖譜的自動化圖譜構建所展開。評測從預定義圖譜模式(Schema)和少量的種子知識圖譜開始,從非結構化的文本數據中構建知識圖譜。其中圖譜模式包括10種實體類型,如機構、產品、業務、風險等;20個實體間的關係,如(機構,生產銷售,產品)、(機構,投資,機構)等;以及若干實體類型帶有屬性,如(機構,英文名)、(研報,評級)等。
在給定圖譜模式和種子知識圖譜的條件下,評測內容爲自動地從研報文本中抽取出符合圖譜模式的實體、關係和屬性值,實現金融知識圖譜的自動化構建。所構建的圖譜在大金融行業、監管部門、政府、行業研究機構和行業公司等應用非常廣泛,如風險監測、智能投研、智能監管、智能風控等,具有巨大的學術價值和產業價值。
評測本身不限制各參賽隊伍使用的模型、算法和技術。希望各參賽隊伍發揮聰明才智,構建各類無監督、弱監督、遠程監督、半監督等系統,迭代的實現知識圖譜的自動化構建,共同促進知識圖譜技術的進步。
獎勵安排
賽事官網
https://www.biendata.com/competition/ccks_2020_5/
交流平臺
交流平臺:QQ羣(743057650)
- 在訓練及驗證數據發佈的同時會發布任務交流平臺。
- 相關的問題說明、解答和通知會在該平臺中發佈和交流。
- 所有參賽隊伍至少有一名成員加入到交流平臺中。
- 各參賽隊伍針對評測任務的交流在該平臺裏進行。
- 爲公平起見,所有交流信息對所有參賽隊伍公開。