NiuTensor開源框架:C語言編寫,支持CPU和GPU,可快速修改底層實現 | 百萬人學AI評選

2020 無疑是特殊的一年,而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上,CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級,設立了「AI優秀案例獎Top 30」、「AI新銳公司獎Top 10」、「AI開源貢獻獎Top 5」三大獎項。我們相信,榜樣的力量將成爲促進AI行業不斷髮展的重要基石,而CSDN將與這些榜樣一起,助力AI時代的”新基建“。

活動官網:https://bss.csdn.net/m/topic/ai_selection/index

申報地址:http://csdnprogrammer.mikecrm.com/WpA03hJ

一、公司簡介

瀋陽雅譯網絡技術有限公司由小牛翻譯團隊創立於2012年5月,致力於通過研發自主可控的機器翻譯技術,打造全方位的機器翻譯基礎設施平臺,爲企業級用戶提供多語種全棧式機器翻譯服務解決方案。小牛翻譯團隊是國內規模最大的機器翻譯產學研團隊,近80%成員擁有碩士或博士學位,核心成員來自擁有40年機器翻譯研發積累的東北大學自然語言處理實驗室。 

小牛翻譯團隊核心成員來自東北大學自然語言處理實驗室,由姚天順教授創建於 1980 年,現由朱靖波教授、肖桐博士領導,長期從事計算語言學的相關研究工作。專注於語言智能研究40年,主要包括機器翻譯、語言分析、文本挖掘等。承擔30+項國家級研究項目,發表66篇CCF A/B 類會議論文和IEEE/ACM Transactions 雜誌長文。團隊研發的小牛翻譯系統已經得到廣泛應用,目前支持 187 種語言互譯,通過小牛翻譯開放平臺(https://www.NiuTrans.com)讓機器翻譯技術賦能全球企業。

二、開源項目簡介

2007年,東北大學自然語言處理實驗室和小牛團隊開始研發小牛開源平臺,並開源了機器翻譯系統NiuTrans和張量計算框架NiuTensor。NiuTrans包括統計機器翻譯系統SMT和神經機器翻譯系統NMT。(開源地址:https://developer.niutrans.com/

從20世紀90年代起,統計機器翻譯技術快速發展,但是系統實現代價很大,基本上只能從底層開發。爲了提高研究者的研發效率,我們於2011年開源了NiuTrans系統的SMT版本,爲國內衆多機器翻譯研究者提供了極大的便利。該系統支持多線程,由C++編寫,簡單易用的API,運行速度快,翻譯任務中高質量的翻譯效果;內嵌小巧、高效的N-元語言模型,無需其它軟件(如SRILM)的外部支持;支持基於短語、層次短語和句法(樹到串、串到樹、樹到樹)的翻譯模型。迄今爲止NiuTrans系統已被70多個國家3000多個機構和個人使用,獲得了國內自然語言處理的最高獎項錢偉長中文信息科學技術獎一等獎,並參加了多次評測,取得了很好的成績。

隨着深度學習技術的快速崛起,神經機器翻譯成爲了新的範式。神經機器翻譯離不開張量計算框架的支持,目前已經框架的擴展性和通用性很好,但不方便進行底層的修改和擴展,並且沒有針對任務進行特定的優化。針對這些問題,我們於2019年開源了面向自然語言處理應用的張量計算框架NiuTensor。NiuTensor提供了完整的張量定義及計算功能,簡單小巧,易於修改;c語言編寫,代碼高度優化;同時支持CPU和GPU設備;豐富的張量計算接口;支持C/C++調用方式,未來將支持Python等多種調用方式。  

NiuTensor是目前國內爲數不多的張量計算框架,爲深度學習研究者提供了極大的便利和更多的選擇空間。研究者可以簡單快速地修改底層實現,比如支持神經網絡進行整型數據類型計算等,從而可以新的提出技術改進。

基於NiuTensor開源框架,我們於2020年開源了NiuTrans系統的NMT版本,可以幫助開發者搭建自己的神經機器翻譯模型。該系統基於Transformer模型架構,並對目前比較有效的技術進行了實現,比如相對位置編碼、深層網絡等,從而可以快速復現一些論文和工作。該系統已經在小牛翻譯在線系統中進行使用,併成功部署在手機、翻譯機等小設備上。

三、開源影響力介紹

小牛開源項目主要包括NiuTrans機器翻譯開源工具、NiuTensor深度學習開源框架以及基於NiuTensor的自然語言處理應用實例,其中NiuTrans系統支持統計機器翻譯方法中基於短語、基於層次短語和基於句法(包括樹到串、串到樹、樹到樹)的五大模型。開源系統免費提供給學術界以及工業界用於統計機器翻譯研究使用,該系統已經被來自於70多個國家的3000多家研究機構和個人下載。該系統在CWMT2009漢英翻譯評測中取得了第二名的成績;在CWMT2011獲得第一的成績;2011年日本東京舉辦的NTCIR-9專利漢英翻譯評測中獲得第二的成績。

此外,該系統在自然語言處理領域國際頂級會議ACL2012上進行論文發表(NiuTrans: An Open Source Toolkit for Phrase-based and Syntax-based Machine Translation. ),截至目前,該文章引用次數已達79次。對於NiuTensor深度學習框架及其應用實例,該系統面向自然語言處理(機器翻譯、語言建模、命名實體識別等)任務進行高度優化,目前已在小牛開源網站以及github上公開使用文檔以及開源代碼,該系統將於2020年底正式發佈。目前NIuTensor系統已在東北大學本科、碩士授課中進行初步使用,口碑頗豐。

小牛開源系統主要通過網站和github結合的方式爲開發者提供技術支持,網站以及github上提供開源系統的使用說明文檔(安裝文檔、用戶接口、應用案例、技術說明),此外當開發人員在使用開源系統遇到問題時可以通過github上的issue進行發帖提問,或者直接通過郵件聯繫開發人員進行問題的溝通解決。後續開源系統將提供額外的機器翻譯論壇,供研究、開發人員針對機器翻譯及其相關技術進行在線討論。

小牛開源系統針對開發者的需求,對外提供豐富的工具包。如對於NiuTrans開源系統對外提供NiuTrans Server工具,能夠幫助用戶快速地將NiuTrans機器翻譯系統部署在用戶本地,用戶可以通過本地局域網進行訪問,因此它不受在線翻譯系統中訪問次數、網絡穩定性及數據安全等問題的限制;同時NiuTrans Server提供了很多在線翻譯系統無法提供的功能(如翻譯記憶庫等)。此外小牛開源系統對外積極進行推廣以及生態構建,通過瀋陽雅譯、小牛思拓等公司向騰訊、華爲、京東等企業提供高效穩定的機器翻譯能力支持。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章