大模型预训练前沿技术报告 ① ：大模型长上下文数据与方法

大模型预训练前沿技术报告系列直播课是由中国中文信息学会计算语言学专业委员会主办，并行科技承办的以大语言模型预训练技术为内容方向的系列公益直播课，旨在分享大模型预训练技术前沿学术成果和普及大模型预训练中的超算应用，面向大模型领域的科研工作者和高校师生展开。

大模型预训练前沿技术报告系列直播课计划共举办四场，固定播出档期为每月第三周周四19:00。每期邀请一位大模型领域的知名专家学者，进行约一小时的学术报告分享。直播课的播出平台为：B站【CIPS计算语言学专委会】、视频号【并行科技】、B站【并行科技】。欢迎观看与交流。

特邀讲者

王炳宁，百川智能预训练负责人。博士毕业于中国科学院自动化研究所，主要研究问答系统和大语言模型。历任搜狗、腾讯高级研究员，有着丰富大规模生成式模型经验，主导并发布如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据，以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然语言处理会议上以第一作者发表论文11篇，并获得2021年CIKM best paper runner up。博士论文《机器阅读理解关键技术研究》获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会委员。

直播摘要

过去一年里，大型模型的长语境能力实现了显著的飞跃。上海人工智能实验室OpenLMLab团队在长上下文预训练数据、模型及训练等方面进行了探索，并成功将这些研究成果融合至InternLM2系列模型中，从而实现了200k的上下文长度处理能力。本报告首先探讨了如何准备高质量的预训练数据，并介绍了我们开发的长上下文预训练数据集LongWanjuan。接着，我们总结了当前长上下文模型的技术发展路线，最后分享了我们在长上下文训练领域的实践经验。

B站观看直播请移步搜索“CIPS计算语言学专委会” B站官方号。