大模型后训练前沿技术报告系列直播课是由中国中文信息学会计算语言学专业委员会主办、并行科技承办的以大语言模型后训练技术为内容方向的系列公益直播课,旨在分享大模型后训练技术前沿学术成果和普及大模型后训练中的超算应用,面向大模型领域的科研工作者和高校师生展开。
大模型后训练前沿技术报告系列直播课计划共举办四场,固定播出档期为每月第三周周四19:00。每期邀请一位大模型领域的知名专家学者,进行约一小时的学术报告分享。直播课的播出平台为:视频号【并行科技】、B站【CIPS计算语言学专委会】【并行科技】。欢迎观看与交流。
特邀讲者
郑锐,字节跳动大模型算法工程师,复旦大学计算机博士,博士导师为张奇教授。研究兴趣包括大模型对齐、复杂场景应用等。MOSS-RLHF开源项目负责人,文本鲁棒性评测工具TextFlint核心贡献者,在ICLR、ACL、EMNLP、COLING等会议上发表学术论文十余篇。
直播摘要
本次报告将首先介绍大模型对齐技术中的强化学习人类反馈(RLHF)的原理,并深入探讨如何从近端策略优化(PPO)和奖励模型训练两个角度提升RLHF的稳定性和质量。随后,我们将基于OpenAI的经典方法——逆课程强化学习(Reverse Curriculum Reinforcement Learning)探讨在有限资源,即仅依赖示范(demonstration)和结果监督(outcome supervision)的情况下,如何近似过程监督。通过两个工作Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, ICML2024 和 StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback, ACL2024 我们分别验证了逆课程强化学习在推理和代码生成任务上的有效性。
B站观看直播请移步搜索“CIPS计算语言学专委会” B站官方号。