CCL 2025大模型推理与强化学习专题论坛专家名单公布！

“第二十四届中国计算语言学大会” (The 24th China National Conference on Computational Linguistics，CCL 2025) 将于2025年8月11日至14日在山东省济南市举行。会议主办单位为中国中文信息学会，承办单位为齐鲁工业大学（山东省科学院）。

中国计算语言学大会创办于1991年，由中国中文信息学会计算语言学专业委员会主办。经过30余年的发展，中国计算语言学大会已成为国内自然语言处理领域权威性最高、规模和影响最大的学术会议。作为中国中文信息学会的旗舰会议，CCL聚焦于中国境内各类语言的智能计算和信息处理，为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。

本次会议由多模态大模型基础理论与应用、大模型推理与强化学习、通用群体智能和青年人才论坛四个专题论坛组成。其中大模型推理与强化学习专题论坛，将由香港科技大学何俊贤博士、清华大学丁宁博士、新加坡某公司的研究科学家刘乾、香港科技大学冯一人博士、上海人工智能实验室李雅夫研究员进行专题报告。

长按识别二维码注册会议

大模型推理与强化学习专题论坛主持人

何俊贤，香港科技大学

个人介绍：

何俊贤，香港科技大学计算机科学与工程系助理教授。于2022年从卡内基梅隆大学计算机学院获得自然语言处理领域的博士学位。他最近的研究重点是大模型推理。担任ICLR、ACL和EMNLP的领域主席。代表作有Unify-PEFT, C-Eval, CodeIO, SimpleRL等。

何俊贤:大模型推理 —— 从中间训练到强化学习

何俊贤，香港科技大学

报告摘要：

大模型的复杂推理能力不仅是其在复杂任务中应用的关键环节，也是衡量模型智能水平的重要标志之一。在本次报告中，我们将系统介绍提升大模型推理能力的主要方法及相关研究进展，并分享我们在复杂推理能力提升方面的最新工作，包括：（1）CodeIO：一种通过合成数据和中间训练阶段提升模型通用推理能力的方法；（2）Laser：利用强化学习有效压缩思维链长度，从而提升推理效率；（3）SynLogic：基于大规模合成、可验证的逻辑推理数据，在强化学习中进一步增强模型的多项推理能力。

个人介绍：

丁宁：强化学习驱动的推理模型：密集奖励、策略熵和自演化

丁宁，清华大学

报告摘要：

推理模型的出现揭示了另一种以探索为中心的规模化趋势，强化学习则是其中的核心技术。尽管强化学习具备严谨的理论体系，但推理模型所引入的泛化维度仍为其带来了巨大的研究空间。本次报告将会介绍报告人近期在强化学习驱动的推理模型的一系列工作，包括密集监督的构建与应用、测试时强化学习、以及一些暂未发表的研究工作（Implicit PRM 、PRIME、TTRL等），同时对这个领域进行展望。

个人介绍：

丁宁，清华大学电子工程系助理教授，研究方向为人工智能，尤其注重探究通用智能和专业推理能力的理论、算法和系统，并致力于将其应用到创新科学发现中。他在Nature Machine Intelligence、ICLR、NeurIPS、ICML、ACL等人工智能会议和期刊发表多篇论文，谷歌学术引用量超过7000次，主导的开源成果在GitHub上获得超过25000星标。他曾入选中国科协青年人才托举工程，获ACL最佳系统演示论文奖、世界人工智能大会青年优秀论文奖和云帆奖、中国算力大会最佳学术论文奖、清华大学优秀博士论文、百度奖学金、Stanford全球前2%科学家等荣誉。他最近提出融合密集奖励的强化学习方法PRIME、测试时强化学习TTRL等工作。

刘乾：SimpleTIR：大模型可以自主用代码思考与多步推理

刘乾，新加坡某公司

报告摘要：

零强化学习（Zero RL）设置下训练大语言模型进行多步工具集成推理（TIR）往往面临训练不稳定和依赖冷启动数据的挑战。本次talk中，我们介绍了SimpleTIR框架，一个用于训练端到端多步推理模型的方法。SimpleTIR引入了一种简单高效的数据过滤机制，成功稳定了多步推理的零强化学习训练过程。该框架促使模型自主生成并执行代码，并将执行结果无缝整合到后续推理链中。在数学推理任务上的实验表明，SimpleTIR在单步和多步设置下均实现了最先进的零强化学习性能，并在代码生成频率、思维链长度及整体性能等关键指标上取得了稳定且显著的提升，为直接基于基础模型高效提升多步推理能力提供了一条稳定高效的路径。

个人介绍：

刘乾目前是新加坡某公司的研究科学家。在这之前，他是北京航空航天大学和微软亚洲研究院的联合博士研究生。他的主要研究方向是自然语言处理，主要包括代码生成与自然语言推理等。他在顶级会议如ICLR, NeurIPS, ICML上发表了数十篇论文。他一作的论文Reasoning Like Program Executors 曾获得微软MLADS 2022人工智能研讨会杰出贡献奖，他参与的StarCoder 1/2 是开源社区知名的代码生成模型。他曾获得2020年百度奖学金提名，入选KAUST Rising Stars in AI 2024，并获得北京市2023年优秀博士论文提名奖。同时，他是MLNLP社区联合创始人之一，并担任第一届MLNLP大会程序委员会主席。

冯一人：大模型推理: 更多样化、知识丰富，和严谨

冯一人，香港科技大学

报告摘要：

本次报告将探讨如何提升大语言模型在多样化、知识密集和数学严谨场景下的推理能力。首先，我们提出Multirole-R1框架，通过多角色视角增强主观问题的多样性与准确性，结合强化学习优化推理多样性。其次，针对多模态检索增强生成，我们提出一种基于全局奖励反传的端到端优化方法，高效整合异构知识并提升事实性。最后，我们介绍一个Hybrid Reasoning框架，通过自然语言与形式化语言的混合推理，显著提升数学问题的解决能力，突破传统自然语言推理的局限性。实验表明，这些方法在多样化推理、知识增强和数学严谨性上均达到领先水平，为大模型的高阶推理提供了新思路。

个人介绍：

冯一人，Yi R. (May) Fung。现为香港科技大学计算机科学与工程系助理教授，是人工智能、自然语言处理和计算社会科学领域的新锐学者。她于2024年获得伊利诺伊大学香槟分校计算机科学博士学位, 师从著名学者Heng Ji 教授。冯教授的研究聚焦于以人为中心的可信赖人工智能, 特别关注信息诚实性、基础模型知识边界感知、多模态多语言社会情境化推理等关键问题。H指数23, 连续获得ACL 2024和NAACL 2024杰出论文奖, 以及NAACL 2021最佳Demo论文奖。她曾主导参与多项美国国家级重大项目，在 ACL 和 NeurIPS 等顶级会议任领域主席。其研究与可信人工智能、隐私保护等密切相关，在对话系统隐私保护、大语言模型知识边界检测和拒绝响应训练等方向取得突破性进展，与本项目提出的隐私保护、安全验证等研究方向高度契合。

李雅夫：大模型推理能力的进化路径：从离策略强化到测试时自适应优化

李雅夫，上海人工智能实验室

报告摘要：

随着大语言模型在数学推理与复杂任务中的快速发展, 推动其推理能力持续进化、并更好对齐用户偏好已成为重要研究方向。本报告聚焦两条核心路径：一是LUFFY（Learning to Reason Under Off-policy Guidance）, 通过引入外部强者轨迹, 实现大模型在离策略强化学习下的能力跃迁, 显著提升模型在数学与通用推理任务上的表现, 并有效突破弱模型的上限；二是TPO（Test-time Preference Optimization），提出基于文本反馈的测试时自适应优化方法，无需参数更新，模型即可在推理过程中通过奖励反馈迭代修正、灵活对齐用户偏好，在多项评测中展现优异性能。报告将系统介绍上述进展，探讨大模型推理能力从训练期能力突破到推理期自适应优化的前沿路径。

个人介绍：

李雅夫, 上海人工智能实验室研究员, 主要研究方向包括大语言模型推理、可信人工智能与机器翻译。博士毕业于浙江大学与西湖大学联合培养项目, 先后获爱丁堡大学人工智能硕士及武汉大学电子信息工程学士学位。在ACL、EMNLP、ICLR、ICML等国际顶级会议发表多项研究成果，曾获ACL 2023最佳论文提名, 并担任ACL、EMNLP领域主席及多项国际会议和期刊审稿人。博士期间曾获国家奖学金, 入选腾讯犀牛鸟精英人才计划并获杰出奖学金。

CCL 2025组委会

大会主席：

孙茂松（清华大学）

段培永（齐鲁工业大学）

程序委员会主席：

刘知远（清华大学）

徐睿峰（哈尔滨工业大学（深圳））

孙薇薇（剑桥大学）

本地组织主席：

吴晓明（齐鲁工业大学）

鹿文鹏（齐鲁工业大学）

张维玉（齐鲁工业大学）

评测主席：

林鸿飞（大连理工大学）

谭红叶（山西大学）

李斌（南京师范大学）

出版主席：

陈玉博（中科院自动化所）

田植良（国防科技大学）

刘正皓（东北大学）

前沿动态主席：

肖桐（东北大学）

冯骁骋（哈尔滨工业大学）

讲习班主席：

徐童（中国科学技术大学）

陈旭（人民大学）

赞助主席：

刘康（中科院自动化所）

韩先培（中科院软件所）

论坛主席：

户保田（哈尔滨工业大学（深圳））

林洲汉（上海交通大学）

热点论文主席：

林鸿宇（中科院软件所）

张倬胜（上海交通大学）

雷文强（四川大学）

宣传主席：

李鹏（清华大学）

辛欣（北京理工大学）

Web主席：

左家莉（江西师范大学）

司加胜（齐鲁工业大学）

系统展示主席：

苏劲松（厦门大学）

飞龙（内蒙古大学）

学生研讨会主席：

黄书剑（南京大学）

赵伟翔（哈尔滨工业大学）

财务主席：

王宇星（清华大学）

本地组织委员：

郑超群（齐鲁工业大学）

管红娇（齐鲁工业大学）

赵龙（齐鲁工业大学）

任晓强（齐鲁工业大学）

韩晓晖（齐鲁工业大学）

赵志刚（齐鲁工业大学）

乔新晓（齐鲁工业大学）

董祥军（齐鲁工业大学）

计算语言学专委会执委会

主任：

刘洋（清华大学）

副主任：

车万翔（哈尔滨工业大学）

张岳（西湖大学）

刘康（中国科学院自动化研究所）

秘书长：

车万翔（哈尔滨工业大学）

执委：

冯洋（中国科学院计算技术研究所）

邱锡鹏（复旦大学）

韩先培（中国科学院软件研究所）

分享这个文章：

CCL 2025大模型推理与强化学习专题论坛专家名单公布！

大模型推理与强化学习专题论坛主持人

何俊贤:大模型推理 —— 从中间训练到强化学习

丁宁：强化学习驱动的推理模型：密集奖励、策略熵和自演化

刘乾：SimpleTIR：大模型可以自主用代码思考与多步推理

冯一人：大模型推理: 更多样化、知识丰富，和严谨

李雅夫：大模型推理能力的进化路径：从离策略强化到测试时自适应优化

CCL 2025组委会

计算语言学专委会执委会

相关文章

发表回复 取消回复

发表回复取消回复