CCL 2020 前沿动态综述

时间:2020年11月1日14:30-17:00

时间 方向 安排
14:30-14:45 任务型对话  俞舟    (哥伦比亚大学)
14:45-15:00 语义理解和生成 宋林峰  (腾讯科技有限公司)
15:00-15:15 信息抽取 张奇   ( 复旦大学)
15:15-15:30 常识    吴俣    (微软亚洲研究院)
15:30-15:45 闲聊型对话  张伟男  (哈尔滨工业大学)
15:45-16:00 语言生成  周浩    (字节跳动)
16:00-16:15 预训练语言模型  蓝振忠  (西湖大学)
16:15-16:30 机器翻译      苏劲松  (厦门大学)
16:30-16:45 模型结构优化  肖桐    (东北大学)
16:45-17:00 跨语言学习  张梅山  (天津大学)

报告具体信息:

讲者: 周浩

方向: 语言生成

摘要: 文本生成是自然语言处理的重要方向之一,很多关键的下游任务包括机器翻译,人机对话,自动问答等都可以用生成的方式来实现。此外,文本生成模型本身也具有较大价值,比如升级预训练表示学习中的生成模型往往能带来巨大的性能提高(从GPT到BERT)。主流的文本生成模型主要遵循自左至右的生成范式,并使用Transformer来参数化。其中修改网络结构,改进Transformer的参数化方式被研究地较多,但提出全新的生成范式却直到Mask LM的提出才开始得到较多关注。本次报告会主要聚焦在全新生成范式上,通过从Diffusion Networks,即一个全新的深度生成模型出发,来总结性地介绍非自回归生成,迭代式生成以及基于插入删除的全新生成方法,并尝试展望未来文本生成模型的一些可能的发展方向。

个人简介: 周浩,字节跳动人工智能实验室研究员,主要负责文本生成技术的研究和落地以及商业场景 (包括广告和电商)下的文本理解技术的应用。周浩于2017年博士毕业于南京大学,并获得南京大学优秀博士论文和中国人工智能学会优秀博士论文。他的研究方向包括机器学习以及其在自然语言理解中的应用。目前,他主要关注深度生成模型在自然语言处理中的应用,包括文本生成和深度文本表示学习。他曾担任多个会议的程序委员会成员,并在相关会议包括ACL, EMNLP, NeurIPS, ICML和ICLR上发表论文3篇

讲者: 宋林峰

方向:语义理解和生成

摘要: 基于AMR的语义理解和文本生成是自然语言处理的前沿任务之一。近年来,基于深度学习的神经机器翻译方法获得迅速发展,目前已经成为学术界和工业界的主流方法。本次报告将对近年来基于AMR的语义理解和文本生成相关研究进行综述分类,并选取代表性工作进行简要介绍,最后,对未来的发展趋势进行展望。

个人简介: 于2019年从University of Rochester毕业,目前是腾讯AI Lab西雅图实验室的高级研究员导。研究方向:文本理解,文本生成,对话建模等方向。在TACL、TKDE、ACL、EMNLP、NAACL、AAAI、IJCAI等国际顶级期刊和顶级会议发表论文20多篇、引用600多次。担任过国际顶级会议的领域主席,并长期担任多个国际顶级会议审稿人。

讲者: 张奇

方向:信息抽取

摘要: 信息抽取是自然语言处理的基础工作,也是验证机器学习算法能力的重要任务。本报告将针对近年来信息抽取研究的新进展进行介绍,包括半监督、弱监督、图神经网络、融合知识等。

个人简介: 复旦大学计算科学技术学院教授、博士生导师。主要研究方向是自然语言处理和信息检索。作为项目负责人承担了国家自然科学基金面上项目、国家自然科学基金重点项目子课题、863高技术发展计划子任务、 国家重点基础研究发展计划(973计划)、上海市教委、上海市科委、校企合作等40余项。以第一作者或通讯作者发表论文共100 余篇,被引用次数2600余次。获得WSDM最佳论文提名奖、COLING最佳论文提名奖。作为第二译者翻译专著《现代信息检索》。获得上海市科技进步二等奖、教育部科技进步二等奖、ACM 上海新星提名奖、IBM Faculty Award、中国中文信息学会钱伟长中文信息处理科学技术奖--汉王青年创新一等奖。

讲者: 吴俣

方向: 常识

摘要: 近两年来,预训练模型在自然语言处理领域取得了极大的突破。然而,预训练模型是否可以通过“大数据,大模型”的方法成功地学习到常识知识仍然是学术界存在争议的一大问题。本次讲座将结合我和微软研究院同事们在相关领域的一些研究工作,详细解读预训练模型对常识知识的掌握能力,并展望未来的发展趋势。

个人简介: 吴俣,微软亚洲研究院自然语言计算组研究员,主要研究兴趣包括:人机对话,机器翻译、语音识别。于2014年在北京航空航天大学获学士学位,并于同年参与北航-微软亚洲研究院联合培养博士生计划,在2019年获北航工学博士学位。在国际会议和期刊发表论文30余篇,引用900余次,相关技术应用到了微软小冰的对话引擎之中。博士期间曾荣获微软学者奖学金,国家奖学金等奖项。

讲者:张伟男

方向:闲聊型对话

摘要: 近年来,人机对话受到了学术界和工业界的广泛关注,在研究上,已经成为各大自然语言处理国际顶级会议的热点。在应用上,基于人机对话技术的产品也层出不穷。本次报告中将对近三年开放域人机对话领域的相关研究进行综述,对技术前沿及动态进行介绍,针对开放域人机对话涉及的具体热点研究问题,选取代表性工作进行简要介绍,最后,对开放域人机对话进行研究趋势的分析。

个人简介: 哈尔滨工业大学计算学部社会计算与信息检索研究中心,副教授。研究兴趣包括人机对话及自然语言处理。在ACL、AAAI、WWW、IJCAI、IEEE TKDE等CCF A类国际会议及国际顶级期刊发表论文多篇,担任多个国际会议及期刊的程序委员会成员、审稿人及期刊编委。目前为中国中文信息学会(CIPS)信息检索专委会委员、青年工作委员会委员,中国人工智能学会(CAAI)青年工作委员会委员,腾讯AI Lab学术顾问。主导研发了智能人机对话系统“笨笨”,上线至今拥有6000多微信平台用户,积累百万级人机对话数据对,2019年3月“笨笨”中的开放域人机对话功能成功落地到科大讯飞AIUI智能交互平台,年均被调用7亿多次。曾获黑龙江省科技进步一等奖、中国人工智能学会最佳青年成果奖、中国人工智能学会“合创杯”第二届全国青年创新创业大赛三等奖。

讲者: 俞舟

方向:任务对话

摘要: 对话系统越来越有被大众接受,利用率越来越高。我会讲一下一种特别类型的以劝说为主的对话系统。劝说对话系统可以进行个性化达到更好的目的。劝说的应用领域广泛,从劝说病患多运动,到推荐产品。

个人简介: 俞舟是哥伦比亚大学的助理教授,之前也在加州大学戴维斯分校任教。博士毕业于卡耐基梅隆大学,本科毕业于浙江大学。主要从事自然语言学处理研究。曾经获得过2018 年福布斯30位30岁以下的科研者,也获得过第二届亚马逊Alexa Prize 闲聊机器人大赛冠军。

讲者:蓝振忠

方向: 预训练语言模型

摘要: 预训练语言模型在最新的研究和应用中表现出强大的语言理解能力,为自然语言处理打开了全新的局面,并推动了整个人工智能领域在预训练方法上的发展。本报告将介绍这一领域在各个主要研究方向上的研究进展,并展望这一研究领域的发展趋势。

个人简介: 西湖大学深度学习实验室特聘研究员。研究主要集中在自然语言处理,计算机视觉和深度学习的结合与应用。在加入西湖大学之前,在谷歌AI部门工作,负责过多个自然语言处理和计算机视觉的项目研发。研发成果被应用于谷歌新闻和谷歌助手等多个拥有亿级以上用户的产品。其研究开发的自然语言理解模型ALBERT是目前最好的语言理解模型之一。博士毕业于卡内基·梅隆大学(CMU)计算机学院学习。博士期间,曾作为核心队员,代表CMU参加美国国家标准总局(NIST)举办的多媒体事件检测比赛(TRECVID  MED)并获得三个赛道中的两个的冠军。同时参加此次比赛的还包括斯坦福和IBM内的美国其他的著名高校和企业。近年来,他在多个国际会议和期刊发表论文20余篇。同时,他也在ACM  Multimedia, CVPR, ECCV, ICCV 等国际顶会的的程序委员会委员以及TPAMI,  TIP, TMM, TCSVT, CVIU 等期刊的审稿人。

讲者:苏劲松

方向: 机器翻译

摘要: 机器翻译是自然语言处理的前沿任务之一。近年来,基于深度学习的神经机器翻译方法获得迅速发展,目前已经成为学术界和工业界的主流方法。本次报告将对近年来神经机器翻译相关研究进行综述分类,并选取代表性工作进行简要介绍,最后,对未来的发展趋势进行展望。

个人简介: 厦门大学信息学院,副教授,博导。研究方向:机器翻译,自然语言处理。在T-PAMI、AI、ACL、AAAI、IJCAI、ACMMM等CCF-A类国际期刊和会议发表论文30多篇,长期担任多个国际权威期刊和会议审稿人。目前为中国中文信息学会机器翻译专委会委员、青年工作委员会委员。

讲者: 肖桐

方向: 模型结构优化

摘要: 模型架构设计是自然语言处理中的核心问题。近些年,随着Transformer等架构的提出,很多任务上的系统性能得到了进一步的提升。本报告会对模型架构优化的前沿进展进行综述,并结合机器翻译、语言建模等方面的进展,对不同模型进行对比及分析。

个人简介: 肖桐,博士,副教授,博士生导师,东北大学自然语言处理实验室主任。2012年博士毕业于东北大学,中国中文信息学会首届优秀博士论文提名奖获得者,曾先后在日本富士施乐研究中心、微软亚洲研究院访问学习。2013-2014赴英国剑桥大学开展博士后研究。小牛翻译的技术负责人(www.niutrans.com),并主持多套机器翻译评测(比赛)系统的研发,在WMT、CWMT等评测中取得多项任务的第一。研发的NiuTrans开源机器翻译系统于2016年获得国内自然语言处理领域最高奖– 钱伟长中文信息处理科学技术奖(一等奖)。在AI、JAIR、TASL等人工智能及自然处理语言领域重要期刊及AAAI、IJCAI、ACL等顶级会议发表论文40余篇。 社会学术兼职包括:中国中文信息学会青年工作委员会副主任、中国中文信息学会信息检索与内容安全专业委员会委员等、中国计算机学会中文信息技术专委会。

讲者: 张梅山

方向: 跨语言学习

摘要: 自然语言处理中有监督学习的方法占据了比较主流的场景,在各项任务上取得了较好的性能,然而有监督的学习方法需要依赖一定规模的训练语料,虽然在类似英语这样资源丰富的语言中,各个任务的标注资源较多,然而在面向中文、德语、葡萄牙语、日语等语言时,很多任务没有相关的人工标注语料。为了在这些语言上取得比较好的性能,跨语言迁移学习是一个非常好的途径,其主要方式是利用资源丰富语言的标注语料,去间接指导资源稀缺语言的任务模型,本次报告将主要针对无监督的跨语言迁移学习展开,梳理和介绍前沿最新的方法,以及可能的研究前景。

个人简介: 天津大学新媒体与传播学院长聘副教授。2014年博士毕业于哈尔滨工业大学,2014年11月至2015年11月在新加坡科技与设计大学做博士后,2016年1月至2019年3月为黑龙江大学副教授,2019年4月入职天津大学。主要从事人工智能、自然语言处理和机器学习相关的研究工作,包括文本词法句法语义分析、情感分析、文本生成、舆情分析与导控、社交网络分析和深度学习等,并在自然语言处理领域的知名国际会议以及期刊上(CCF A/B)发表论文30多篇,google被引达1000多次 。编写软件包括面向自然语言处理的深度学习库,以及若干自然语言处理工具包。承担国家自然科学基金二项。