NLP前沿动态综述

1. 颜航(大模型的设计、训练与优化)

讲者:颜航
题目:基座模型训练中的数据选择与预训练方法
摘要:ChatGPT问世以来,由于其优异的泛化性,得到的广泛的关注。为了获得一个类似于ChatGPT一样拥有良好用户体验的大模型,需要首先获得一个性能优异的基座模型。本次报告将从基座模型的预训练数据讲起,再结合具体的预训练过程中会遇到的问题来讨论如何训练得到一个基座模型。
简介:颜航,浦江实验室青年科学家,博士毕业于复旦大学自然语言处理实验室。研究兴趣包括信息抽取、开源NLP工具建设、大规模预训练模型等。开源平台OpenLMLab主要贡献者,设计并开发了fastNLP、fitlog等开源工具,负责了浦江实验室InternLM大模型的训练相关工作。在ACL、TACL、EMNLP、NAACL等会议或杂志上发表了多篇论文,2022年获钱伟长中文信息处理科学技术奖一等奖。

2. 刘知远(大模型微调技术)

讲者:刘知远
题目:大模型的参数高效微调
摘要:近年来深度学习成为自然语言处理关键技术,特别是2018年以来的预训练语言模型,显著提升了自然语言处理整体性能。如何更好地激发大规模预训练模型在下游任务上的效果,是广泛关注的研究课题。但是,随着模型规模增大,如何微调大模型参数适配下游任务,变得越来越困难。最近,参数高效微调(Parameter-Efficient Learning,或者 Delta Tuning)通过固定大模型参数不动,只微调非常少的参数(Delta),就可以达到与全参数微调相当的效果,取得了很多突破性进展。本报告将介绍大模型的小参数高效微调方法、前沿动态以及未来展望。
简介:刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理、基础模型。2011年获得清华大学博士学位,已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文200余篇,Google Scholar统计引用超过3.3万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,入选国家青年人才项目、北京智源研究院青年科学家、2020-2022连续三年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。担任中文信息学会理事、社会媒体处理专委会副主任,期刊AI Open副主编,ACL、EMNLP、WWW、CIKM、COLING等国际著名会议领域主席。

报告内容:大模型微调技术-刘知远.pdf

3. 严睿(大模型与人机对话)

讲者:严睿
题目:大语言模型的力量:探索智能人机对话
摘要:近年来,大型语言模型在各个领域引起了广泛关注。报告旨在探讨大型语言模型在人机对话领域的潜力。其中回顾了大型语言模型的起源以及各个阶段的发展;讨论了人机对话中的大型预训练模型和十亿参数模型的扩展;介绍了大型语言模型在人机对话中的各种应用与挑战。
简介:严睿,中国人民大学高瓴人工智能学院长聘副教授,博士生导师。曾入选北京智源人工智能研究院青年科学家,微软亚洲研究院铸星学者,中国人民大学杰出学者。发表论文100余篇,引用10,000余次,主要研究方向为自然语言处理,文本挖掘,信息检索,机器学习和人工智能。曾多次担任多个顶级学术会议的领域审稿人/资深审稿人,也曾多次受邀于多个顶级学术会议宣讲tutorial报告。

报告内容:大模型与人机对话-严睿.pdf

4. 黄书剑(大模型与机器翻译)

讲者:黄书剑
题目:机器翻译和大语言模型研究进展
摘要:机器翻译旨在通过计算机自动将一种自然语言翻译成另一种自然语言,这个过程对于机器翻译模型的语言理解、语言生成能力有着极高的要求。因此机器翻译一直以来都是一项极具研究价值和研究难度的自然语言处理任务。近期研究表明,大语言模型能够根据人类指令完成包括翻译在内的许多任务,在这一过程中展现出强大的语言理解和生成能力,为自然语言处理范式革新提供了新的可能。为了在大语言模型支持下更好地完成机器翻译任务,研究人员对大语言模型的机器翻译和多语言能力进行了大量的研究和分析。本文从以下三方面介绍相关研究热点和最新进展,包括:1)大语言模型翻译能力评估;2)大语言模型翻译能力激发;3)大语言模型在不同语言上的能力展现。
简介:黄书剑,博士,南京大学计算机科学与技术系副教授,博士生导师。主要研究方向包括机器翻译、文本分析与理解等。现任中文信息学会理事、机器翻译专委会副主任,中国计算机学会自然语言处理专委会委员,曾任中文信息学会青年工作委员会执行委员等。担任NLPCC2022、CCMT2019程序委员会共同主席,CWMT2017、2018评测委员会主席等。2019年获中国中文信息学会杰出服务奖,2020年获中国计算机学会自然语言处理与中文计算奖-青年新锐奖,2022年获钱伟长中文信息处理奖-青年创新奖。

报告内容:机器翻译和大语言模型研究进展-黄书剑.pdf

5. 李丕绩(大模型与文本生成)

讲者:李丕绩
题目:大模型与文本生成
摘要:ChatGPT ,一个可以接收用户指令进行对话问答或完成某种任务的大语言模型,其出色的意图理解能力,优秀的多轮对话能力,强大的多任务处理能力,丰富的知识储备能力,吸引了各行业的从业者研究和应用,也为通用人工智能技术的研究和落地带来了新的想象空间和前景。之后,LLaMA等中小型基座模型的发布又为大模型在各领域各任务上的微调和适配提供了参数支撑。那么,作为生成式大模型的成员,他们在各文本生成任务上的能力和效果到底如何?有哪些优点和不足?有哪些方向值得进一步去探索?本报告将围绕这些问题,探讨大模型下的文本生成技术何去何从。
简介:李丕绩,南京航空航天大学计算机科学与技术学院/人工智能学院教授,博士生导师, 人工智能与交叉应用系副主任,2021年度南京航空航天大学"长空学者"获得者。香港中文大学博士,曾任腾讯AI Lab自然语言处理中心高级研究员。研究方向主要为自然语言处理,包括预训练模型、文本摘要、文本生成和对话系统。曾经在相关领域顶级会议如ACL、EMNLP、SIGIR等发表学术论文60余篇。多次受邀担任ACL、EMNLP、IJCAI等会议的领域主席。在工业界工作期间负责了多个语言理解、文本生成和智能对话相关重要项目的算法研发和产品发布,有丰富的科研落地实践经验。主持或参与国家自然科学基金、CCF-腾讯犀牛鸟基金、CCF-智谱大模型基金等项目。

报告内容:大模型与文本生成-李丕绩.pdf

6. 范意兴(大模型与信息检索)

讲者:范意兴
题目:生成式信息检索前沿综述
摘要:信息检索作为人们获取信息的主要依靠手段,已经成为人们解决日常生活和工作问题的最重要工具之一。现有的信息检索系统为了平衡效率和精度,大都是采用“索引-检索-重排”的流水式架构。近年来,随着预训练方法以及生成式大模型的持续发展,生成式信息检索由于深度语义建模能力及高效简洁存储架构,受到研究人员的广泛关注。本次报告将介绍生成式信息检索方向的最新探索与进展,讨论当前生成式信息检索的应用场景,并展望未来发展以及存在的挑战。
简介:范意兴,博士,中科院计算所副研究员。主要研究内容包括信息检索、自然语言处理等,在国际顶级学术会议SIGIR、WWW、CIKM等发表论文40余篇,获得了2017年CIKM最佳论文Runner-Up奖,2018年中国中文信息学会优秀博士论文奖,入选第六届中国科协青年人才托举工程、中国科学院青年创新促进会会员。担任中国中文信息学会信息检索专委会委员、中国中文信息学会青年工作委员会委员、以及国内外多个会议组委成员。主持国家自然科学基金青年基金、重点研发子课题、腾讯校企合作项目等多个基金项目。开发了深度文本匹配工具MatchZoo,在开源平台Github中得到研究人员的广泛使用与认可,累计4000多star,被国内外100多个高校和企业广泛使用。

7. 陈玉博(大模型与知识图谱)

讲者:陈玉博
题目:大模型与知识图谱前沿综述
摘要:知识图谱作为一种重要的知识表示范式,常被认为是下一代人工智能技术的基础设施之一,受到学术界和工业界的广泛关注。传统知识图谱用符号系统显式组织知识,具有语义明确、可解释性强等特点,但是知识类型与规模有限,难以应对开放域应用场景。随着大规模预训练语言模型技术的发展,将大模型视为参数化的隐式知识图谱成为研究热点。该报告梳理分析大模型在知识图谱构建与应用方面的能力,并详细汇报大模型在知识图谱生命周期各阶段(知识建模、知识获取、知识融合、知识存储、知识推理和知识应用)的最新研究进展。
简介:陈玉博,中科院自动化所副研究员,研究方向为自然语言处理和知识图谱,在ACL、EMNLP、AAAI 等国际重要会议和期刊发表学术论文40 余篇,Google Scholar引用量4300余次,其中两篇论文入选ACL、EMNLP高影响力论文(Paper Digest评选),曾获多次最佳论文奖(NLP-NABD 2016、CCKS 2017、CCL 2020、CCKS 2020)。出版学术专著两部《知识图谱》、《知识图谱:算法与实践》,由人工智能学会推荐入选十三五国家重点图书出版规划教材。连续多年在中国科学院大学主讲《知识图谱》课程,2021 年获得中国科学院大学优秀课程。主持国家自然科学基金面上项目、青年基金项目,参与国家自然科学基金重点项目、2030新一代人工智能重大项目、重点研发计划课题。主持研发的信息抽取和知识图谱构建系统多次获得国际/国内学术评测冠亚军。入选2020 年第五届中国科协青年人才托举工程、2022 年全球华人AI 青年学者、2022 年中国科学院青年创新促进会会员、2022北京智源人工智能青年科学家俱乐部,担任中国中文信息学会青年工作委员会秘书长、COLING 2022领域主席、Data Intelligence编委等。获2018 年中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖,2019 年度北京市科学技术进步奖一等奖。

报告内容:大模型与知识图谱-陈玉博.pdf

8. 熊德意(大模型与价值对齐)

讲者:熊德意
题目:大语言模型对齐
摘要:通用智能的“智能-目标”正交性论题及“工具性目标趋同”猜想均要求通用智能的发展要智善结合。目前大语言模型在能力(智)方面发展迅速,但在更具挑战性的价值对齐(善)方面研究相对滞后。本综述将概述对齐的基本概念和必要性,分析大语言模型对齐的主要技术路线和方法,简述其存在的社会和技术挑战,探讨如何对大语言模型对齐进行评测,总结该领域的研究特点,并对未来进行展望。
简介:熊德意,天津大学智能与计算学部教授、博士生导师,自然语言处理实验室负责人,天津市“一带一路”联合实验室语言智能与技术中外联合研究中心主任。主要研究方向为自然语言处理,特别专注于机器翻译、自然语言对话、大语言模型、常识推理、认知计算等方向的研究。在IEEE TPAMI、AI、AAAI、ACL等国际著名期刊和会议上发表论文150余篇,出版中英文专著各一部。相关研究获得国家级、省部级、国际合作、企业委托等20余项项目资助,获得北京市科学技术奖二等奖、中文信息学会中文信息处理科学技术奖青年创新奖一等奖等奖项。担任IALP 2012&2021程序委员会共同主席,CWMT 2017程序委员会共同主席,NeurIPS、ACL、EMNLP、NAACL、COLING、AACL等多个知名国际会议的领域主席、赞助主席、演示主席等,以及TACL和ARR的Action Editor等。领导研制了仁文伏羲大模型,与华为、阿里、字节跳动、OPPO等多家知名企业开展了深入合作。

9. 张伟男(大模型性能评价)

讲者:张伟男
题目:大语言模型的评价技术综述
摘要:评价技术影响和推动着研究方向的持续进步。从预训练语言模型(PLM)到大语言模型(LLM),自然语言处理领域在性能和实际应用方面取得了显著的进展,但同时也给LLM的评价带来了两个挑战。一方面,由于LLM在传统评测任务上表现出色,因此传统评测任务变得不足以满足LLM的评价需求,同时在LLM训练过程中也可能出现测试集泄漏的问题。另一方面,现有的评测任务难以跟上真实场景中广泛应用的速度。基于以上挑战,我们对近期LLM的评测方法进行了调研,并总结了LLM涉及的关键和核心能力,并对每个能力的评价和未来发展方向提出了思路和方案。
简介:张伟男,教授/博士生导师,哈尔滨工业大学计算机学院院长助理,黑龙江省中文信息处理重点实验室副主任,国家重点研发计划项目负责人。研究兴趣包括自然语言处理及人机对话。在ACL、AAAI、WWW、IJCAI、IEEE TKDE、ACM TOIS等CCF A类国际会议及国际顶级期刊发表论文多篇,多次担任ACL、EMNLP领域主席。目前为中国中文信息学会青年工作委员会副主任,中国计算机学会(CCF)术语审定工作委员会执委、CCF哈尔滨分部秘书长,中国人工智能学会教育工作委员会副秘书长,北京智源青源会会员。曾获黑龙江省科技进步一等奖、吴文俊人工智能科技进步二等奖及黑龙江省青年科技奖等。

报告内容:大模型评价-张伟男.pdf

10. 段楠(大模型与多模态)

讲者:段楠
题目:多模态人工智能前沿综述
摘要:以预训练基础模型为代表人工智能(AI)技术在近年来取得了突飞猛进的进展,通过从海量数据中学习数据的通用表示和常识知识,这类模型在下游任务中表现出优异的泛化能力,并从自然语言处理领域扩展到包括语言、语音和视觉等在内的多模态领域,支持文本、语音和视觉内容之间的相互检索和转换。然而,单一式多模态AI模型仍然存在很大的局限性:由于每次引入新的模态都需要重新训练模型参数,多模态AI模型的模态扩展能力受到计算资源的极大制约。此外,由于受到预先设定模态的限制,现有多模态模型无法应对更为复杂和多样化的任务。为了解决这些问题,多模态AI研究展示出从单一式模型到组合式系统的趋势:通过将大规模语言模型与不同外部工具和模型相连接,组合式AI系统能够更为灵活地调用外部工具和模块,并完成多样化的任务。
简介:段楠博士,微软亚洲研究院资深首席研究员,自然语言计算团队研究经理,中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授,主要从事自然语言处理、多模态基础模型、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项。 他被评为中国计算机协会(CCF)杰出会员、CCF-NLPCC青年科学家(2019年)、DeepTech中国智能计算科技创新人物(2022年)。