大模型后训练前沿技术报告 ② | 面向大模型智能体的环境注入攻击

大模型后训练前沿技术报告系列直播课是由中国中文信息学会计算语言学专业委员会主办，并行科技承办的以大语言模型后训练技术为内容方向的系列公益直播课，旨在分享大模型后训练技术前沿学术成果和普及大模型后训练中的超算应用，面向大模型领域的科研工作者和高校师生展开。

大模型后训练前沿技术报告系列直播课计划共举办四场，固定播出档期为每月第三周周四19:00。每期邀请一位大模型领域的知名专家学者，进行约一小时的学术报告分享。直播课的播出平台为：B站【CIPS计算语言学专委会】、B站【并行科技】、视频号【并行科技】。欢迎观看与交流。

特邀讲者

张倬胜，上海交通大学，长聘教轨助理教授、博士生导师。研究方向为自然语言处理、大模型推理与安全，代表作包括自动思维链推理（Auto-CoT）、多模态思维链推理（MM-CoT）、多模态GUI智能体（Auto-GUI）、智能体安全测评（R-Judge）。在TPAMI、ICLR、ICML、ACL、AAAI等顶级期刊和会议上发表论文70余篇，Google Scholar被引超过4800次，开源成果获得超过1.2万GitHub星标。入选中国中文信息学会优博、世界人工智能大会云帆奖、AI华人百强新星。

直播摘要

本次报告将首先介绍大模型对齐技术中的强化学习人类反馈（RLHF）的原理，并深入探讨如何从近端策略优化（PPO）和奖励模型训练两个角度提升RLHF的稳定性和质量。随后，我们将基于OpenAI的经典方法——逆课程强化学习（Reverse Curriculum Reinforcement Learning）探讨在有限资源，即仅依赖示范（demonstration）和结果监督（outcome supervision）的情况下，如何近似过程监督。通过两个工作Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, ICML2024 和 StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback, ACL2024 我们分别验证了逆课程强化学习在推理和代码生成任务上的有效性。

B站观看直播请移步搜索“CIPS计算语言学专委会” B站官方号。