大模型前沿技术报告11 | 面向协作式AI智能体：连接强化学习与大语言模型

大模型前沿技术报告系列直播课是由中国中文信息学会计算语言学专业委员会主办，并行科技与北京超级云计算中心共同承办的系列公益直播课，旨在分享大模型技术前沿学术成果和普及大模型算力应用，面向相关领域的科研工作者和高校师生展开。

大模型前沿技术报告系列直播课每月一场，每期邀请一位大模型领域的知名专家学者，进行约一至二小时的学术报告分享。直播课播出平台为：视频号【并行科技】、视频号【北京超级云计算中心】、B站【并行科技】，欢迎观看与交流。

特邀主持人

大模型前沿技术报告11 | 面向协作式AI智能体：连接强化学习与大语言模型插图1

杨耀东，北京大学人工智能研究院助理教授、研究员（博雅学者），北大-灵初智能联合实验室首席科学家。国家人社部高层次留学人才、国家级优秀青年人才、中国科协青年托举计划入选者。主要研究方向为智能体交互学习与对齐，科研领域涵盖强化学习、AI 对齐与具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等国际顶级期刊和会议发表论文二百余篇，谷歌学术引用逾 16,000+ 次。自 2022 年以来位列 CSRanking 北大 AI/ML 方向学者首位，入选 Scopus 全球 Top 2% 顶尖科学家。

特邀报告

大模型前沿技术报告11 | 面向协作式AI智能体：连接强化学习与大语言模型插图2

杜雅丽博士，伦敦国王学院的AI副教授，在该校领导分布式AI研究组并负责协作式AI实验室，同时担任阿兰图灵研究所的图灵研究员，是欧洲学习与智能系统实验室（ELLIS）的成员。她的研究致力于开发能够在复杂决策环境中学习、协作并适应人类的协作式与安全AI智能体，重点关注可扩展的多智能体学习、人机协调和价值对齐问题。她曾获得AAAI新晋教师亮点奖，并在2023年被沙特阿卜杜拉国王科技大学（KAUST）评为AI新星。杜博士现任AAMAS高级领域主席，NeurIPS、ICML、ICLR和IJCAI的领域主席，IEEE人工智能汇刊副编辑，以及《自主智能体与多智能体系统杂志》和《机器人与计算机集成制造》的客座编辑。她还曾担任AAMAS 2023、NeurIPS 2024、DAI 2025和AAMAS 2027的组织委员会成员。

报告主题：

面向协作式AI智能体：连接强化学习与大语言模型

报告摘要：

从协作式工业机器人到个人AI助手，AI技术在日常生活中的深度融合突显了开发能够与其他智能体及人类可靠协作的智能体的迫切需求。这一挑战超越了优化个体行为的范畴：协作式智能体必须与人类意图保持一致，适应不断变化的环境，并在与新引入的AI系统等新型合作伙伴交互时保持鲁棒性。更广泛地说，多智能体协作引发了关于自主系统应如何沟通、协商、共享资源和解决冲突的重要社会问题。在本次报告中，我将探讨协作式AI面临的挑战，以及我们在多智能体协作、人机协调和协作对齐方面的贡献。

报告提纲：

1、介绍AI agents 在机器人、个人助手和社会技术系统中的应用背景，以及 agent-agent 和 human-agent coordination 的核心挑战

2、如何利用人类反馈来提高智能体决策能力

3、如何结合 RL 的决策学习能力与 LLM 的语言推理能力，构建适应性更强的 AI agents

分享这个文章：