清华大学自然语言处理与社会人文计算研究中心成立!

  2019 年 7 月 1 日,清华大学人工智能研究院自然语言处理与社会人文计算研究中心成立仪式暨学术报告与开元成功发布会在清华大学 FIT 楼举行。这是继知识智能研究中心、听觉智能研究中心、基础理论研究中心、智能机器人研究中心、智能人机交互研究中心、智能信息获取研究中心、视觉智能研究中心之后成立的第八个研究中心。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院院长助理朱军教授主持了成立仪式。

  

清华大学自然语言处理与社会人文计算研究中心成立!


  尤政院士与张钹院士为中心揭牌

  尤政院士与张钹院士致辞

  尤政院士在致辞中指出,自然语言处理一直以来都是计算机科学领域的一个重要方向,也被称为「人工智能皇冠上的明珠」,是人工智能技术当下和未来发展的战略制高点。而清华大学作为国内最早开展自然语言处理的单位之一,经过四十年的不懈努力,已经发展成国内外自然语言处理研究的一方重镇。因此,中心的成立对于推动清华大学人工智能的深入发展具有十分重要的意义。

  将自然语言处理与社会科学及人文科学相结合,具有大跨度学科交叉的性质。这既是人工智能研究本身的积极拓展,也是对传统学科在人工智能时代的守正出新。希望中心能够凝聚清华自然语言处理研究力量,加强与人文社科学科的交叉合作,开展具有世界水平的自然语言处理基础理论研究和关键技术创新,服务于清华与国家的人工智能发展战略。

  

清华大学自然语言处理与社会人文计算研究中心成立!


  尤政院士致辞

  张钹院士代表清华大学人工智能研究院致辞。他指出语言是人类智能的重要标志,机器自然语言理解是人工智能的终极目标。清华大学在自然语言处理方面有着深厚的研究积淀,1978 年成立人工智能与智能控制教研组时,自然语言处理就是其中的重要研究方向之一,在黄昌宁教授领导下迅速发展成为国内领军的研究单位。

  新成立的中心将致力于实现自然语言处理与人文社科的深度融合,不仅仅是将人工智能技术融入人文社科领域,更需要从语言、社会学、人文学等人文社科的多个角度来反观人类智能的本质,这是研究院人工智能基础研究的重要组成部分。希望中心再接再厉,在自然语言处理与社会学、人文学的交叉研究上形成特色,引领我国自然语言处理和社会人文计算研究领域的发展。

  

清华大学自然语言处理与社会人文计算研究中心成立!


  张钹院士致辞

  致辞结束后,尤政院士与张钹院士共同为自然语言处理与社会人文计算研究中心揭牌,并向清华大学人工智能研究院常务副院长孙茂松教授颁发了中心主任聘书。研究中心同时聘请了中国中文信息学会原理事长、×××院士倪光南,滑铁卢大学讲座教授、加拿大×××科学院院士李明,微软亚洲研究院副院长、国际计算语言学会会长周明,英国帝国理工学院数据科学研究所所长、英国×××工程院院士郭毅可为学术顾问。

  

清华大学自然语言处理与社会人文计算研究中心成立!


  孙茂松教授被聘为中心主任

  自然语言处理与社会人文计算研究中心

  语言是人类区别于其他动物的根本标志,没有语言,人类的思维也就无从谈起。自然语言处理旨在让计算机掌握理解与处理人类语言的能力,体现了人工智能的最高任务与境界,只有当计算机具有处理语言的能力时,机器才可能通过图灵测试。大连正规×××医院 mobile.39552222.net

  自然语言处理与社会人文计算研究中心将紧密围绕人类语言所体现的人类智能本质,重点研究鲁棒、可解释的自然语言处理方法与技术,深入探索语言理解与生成技术在社会人文计算领域的应用,努力建设以中文为核心、覆盖多种语言、从词法到篇章的全流程自然语言处理技术框架与计算平台,力争产出以智能创作、智能语言学习、智能教育、智能司法为代表的、具有国际学术影响力、重大民生意义的社会人文计算研究成果。

  中心的前身是清华大学计算机系自然语言处理课题组,早在上个世纪七十年代末就在黄昌宁教授的带领下从事自然语言处理研究工作,是国内开展相关研究最早、深具影响力的科研单位,同时也是中国中文信息学会(全国一级学会)计算语言学专业委员会的挂靠单位,孙茂松教授现任该专业委员会的主任。

  

清华大学自然语言处理与社会人文计算研究中心成立!


  中心成立仪式合影

  主要研究方向

  面向多粒度语言单元的统一语义表示框架;

  从词法到篇章的全流程自然语言处理技术体系;

  数据与知识融合的多语言机器翻译技术;

  知识指导的自然语言深度理解与智能推理技术;

  跨模态自然语言学习与处理结束

  以自然语言处理为主要支撑手段的社会人文计算,包括智能创作、智能语言学习、智能教育、智能司法、智能传播、智能音乐等。

  代表性成果

  1.THUMT—数据驱动的机器翻译(已开源)

  刘洋副教授向我们介绍了该开源成果 THUMT——它是一个是一个基于深度学习的机器翻译系统。该系统使用了数据驱动的机器翻译技术,具备良好的语言无关性,在具备训练数据的条件下可以迅速为新语种部署系统。支持汉语、英语、日语、俄语、西班牙语、葡萄牙语、德语、法语、阿拉伯语、维吾尔语等关键语言的机器翻译系统,应用于外交部、新疆公检法等政府重要部门和搜狗、百度、捷通华声等互联网企业,在大规模多语言信息深度分析处理和高效服务方面做出贡献,相关产品广泛应用于互联网、金融、能源、电信、交通等行业领域。

  本次开源成果公布了在 TensorFlow 平台上开发的新版本,采用了主流的 Transformer 模型,集成了目前最新的神经机器翻译技术,具有训练速度快(支持多机多卡并行)、显存占用低(支持单精度浮点数计算)、翻译性能高(与国际机器翻译开源软件相比位居前列)、易于可视化分析(支持层级相关反馈算法)等优点。此外还开放了 70 万句对的句级对齐汉英平行语料库和 4 万句对的词级对齐汉英平行语料库。

  2.THUAIPoet—基于深度学习的中文诗歌自动生成系统(已开源)

  矣晓沅博士生(清华大学特等奖金获得者,获「中国网事,感动 2018」第三季度网络感动人物)介绍了开源成果 THUAIPoet。

  THUAIPoet(九歌)是一个基于深度学习神经网络技术的中文诗歌自动生成系统,支持集句诗、绝句、藏头诗、词等不同体裁诗歌的在线生成。曾参加过中央电视台 CCTV-1《机智过人》节目,与人类诗人同台竞技,取得了几乎可与人媲美的效果。

  此次成果发布开源了系统中的无监督风格诗歌生成模型 StylisticPoetry 源码(相关论文发表于 EMNLP 2018),能够在无标注数据集上进行任意数量的风格解耦控制。此外还发布两个人工标注的诗歌数据集(诗歌质量数据集和诗歌情绪数据集),以及国内外诗歌生成相关的主要论文列表。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章