
“第二十四届中国计算语言学大会” (The 24th China National Conference on Computational Linguistics,CCL 2025) 将于2025年8月11日至14日在山东省济南市举行。会议主办单位为中国中文信息学会,承办单位为齐鲁工业大学(山东省科学院)。
中国计算语言学大会创办于1991年,由中国中文信息学会计算语言学专业委员会主办。经过30余年的发展,中国计算语言学大会已成为国内自然语言处理领域权威性最高、规模和影响最大的学术会议。作为中国中文信息学会的旗舰会议,CCL聚焦于中国境内各类语言的智能计算和信息处理,为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。
热点论文论坛将由齐鲁工业大学(山东省科学院)司加胜讲师、阿里通义千问团队于乐工程师、复旦大学博士生汪冰海、上海交通大学博士生何志威、复旦大学博士生张辛农、清华大学博士生黄砚星、中国科学技术大学博士生朱心远、新加坡国立大学黄晨博士进行专题报告。

长按识别二维码注册会议
热点论文报告主持人

主持人:林鸿宇
主持人单位:中国科学院软件研究所
个人介绍:
林鸿宇,中国科学院软件研究所副研究员。研究方向为大语言模型知识机制与后训练。近年来在ACL/NeurIPS/ICLR/AIJ等自然语言处理和人工智能领域国际顶级期刊及学术会议上发表论文70余篇,主持和参与包括国家自然科学基金面上/青年基金、国家自然科学基金重点项目和中国科学院战略先导A类项目在内的多项国家级、部委级项目,以及CCF-百度松果基金、腾讯微信犀牛鸟基金等在内的多项企业合作项目。曾获ACL2024领域最佳论文奖、EDBT2025 Best Paper Runner-Up、中国科学院院长奖特别奖、中国中文信息学会优博、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。

主持人:张倬胜
主持人单位:上海交通大学
个人介绍:
张倬胜,上海交通大学长聘教轨助理教授、博士生导师。研究方向为自然语言处理、大模型智能体与安全。入选中国中文信息学会优博、ACM SIGAI优博、全球AI华人百强学术新星、世界人工智能大会云帆奖璀璨明星。在TPAMI,CSUR,ICLR,ICML,ACL,AAAI等顶级期刊和会议上发表论文80篇,Google Scholar被引7800次,开源成果获得2万GitHub星标。获得2024世界人工智能大会青年优秀论文奖,3篇论文(ICLR/AAAI)入选Paper Digest最具影响力论文。担任中文信息学会青年工作委员会委员、大模型与生成专业委员会委员,ACL Rolling Review执行编委、ACL、EMNLP、NAACL等国际顶级会议(资深)领域主席,CCL2022、CCL 2024分委会共同主席。

主持人:雷文强
主持人单位:四川大学
个人介绍:
雷文强,四川大学计算机学院院长助理、教授、博士生导师,国家级青年人才,博士毕业于新加坡国立大学。从事基于自然语言处理、信息检索、人机交互系统研究。先后主持国家重点研发计划课题、国家自然科学基金面上项目等,并以第一作者或者通讯作者发表中国计算机学会A类长文(CCF-A)数十篇,多篇一作/通讯文章两年内引用过百,获ACM MM2020最佳论文奖,ACL 2024领域主席奖。多次在国际顶级会议,比如ACL,SIGIR上做Tutorial。先后担任各大顶级国际会议比如ACL,KDD,AAAI,IJCAI,WSDM,EMNLP等(高级)程序委员会委员,并担任新加坡全国自然语言处理会议SSNLP2021的程序委员会主席、以及担任重要期刊ACM Trans. on Web的客座编委。
司加胜:CHECKWHY: Causal Fact Verification via Argument Structur

讲者:司加胜
讲者单位:齐鲁工业大学(山东省科学院)
报告摘要:
事实核查(Fact Checking)是应对社交网络中虚假信息的蔓延的有效手段之一。当前的事实核查数据往往以原子性语义核查为主,然而,单体性事件在社交网络的传播过程中往往容易触发衍伸性事件,该交叉类事件之间是否存在因果关系目前少有人关注。由此,本文提出了一种新型的因果事实核查任务,通过引入逻辑学的宏观论证结构来显式描述多跳证据之间的推理过程,并以大模型-人类协同的方式提出了对应的数据集CheckWhy(已开源)。基于所提的四种任务,本文验证了大模型在生成人类可理解的推理过程方面仍有较大提升空间。
个人介绍:
司加胜,齐鲁工业大学(山东省科学院)讲师,硕士生导师,山东省青年泰山学者,博士毕业于东南大学PALM实验室。研究方向为虚假数据挖掘、论辩挖掘和医疗大模型,致力于探索大模型在社会性任务上的可行性。在ACL、KDD、AAAI等顶级会议发表论文20余篇,获ACL 2024杰出论文奖和高级领域主席奖,主持及参与多项国家级和省部级项目,参与研发扁仓中医大模型。目前担任ACL ARR系列会议领域主席,CIPS青年工作委员会秘书处委员。
于乐:Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

讲者:于乐
讲者单位:阿里通义千问团队
报告摘要:
在本工作中,我们详细分析了大语言模型思维链在强化学习中的特点,发现思维链中仅有少量的tokens呈现高熵的状态,主要起到 “fork”(分叉)的作用,决定了思维链的逻辑方向;大量的tokens呈现低熵的状态,主要在高熵tokens既定的方向内完成推理;强化学习很大程度地保留了base模型的熵特征(即哪些tokens需要高/低熵),并且主要改变高熵tokens的熵,展示了高熵tokens在强化学习中的重要性。我们进一步在强化学习中只用20%的高熵tokens、丢弃80%的低熵tokens,结果显示仅在高熵tokens上训练能显著提高大语言模型的推理能力与训练稳定性,且模型参数量越大提升越明显,体现了一定的scaling性质。在32B模型上,AIME’24和AIME’25上分别达到了63.5和56.7分,为当前600B以下从base模型做强化学习训练的SoTA。将最大response length从20k扩展到28k在AIME’24上可达到68.1分。此外,我们做了大量的ablation study,从token熵角度讨论了一些前沿问题的可能解释。
个人介绍:
于乐,阿里通义千问团队高级算法工程师,毕业于北京航空航天大学。研究方向为面向大语言模型的对齐,在国际顶级会议与期刊共发表20余篇论文,引用量4000余次。目前从事通义千问模型的微调、蒸馏、强化学习等后训练工作。
汪冰海:建模世界偏好:偏好建模(奖励建模)中的Scaling Law

讲者:汪冰海
讲者单位:复旦大学
报告摘要:
受到语言建模的Scaling Law启发,我们发现偏好建模(奖励建模)同样遵循Scaling Law。我们通过从公开论坛收集的15M偏好数据在1.5B~72B不同尺寸的模型上进行大规模扩展验证了这一规律。具体来说,随着训练规模和模型大小的扩大,偏好建模损失(BT loss)将对数下降。偏好建模的持续扩展暗示着表面多样的人类偏好可能存在统一和超越性的表征,我们提出 建模世界偏好(Modeling World Preference)来强调这种统一的可能性。
偏好建模的可扩展性似乎出乎意料,一方面人类偏好数据集有着很大的噪音,另一方面BT loss的建模目标过于简单和稀疏。演讲中我们将分享偏好建模或者一般的奖励建模何以是可扩展的思考。
个人介绍:
汪冰海,复旦大学二年级博士,指导老师为黄萱菁教授。研究方向为大模型对齐。
何志威:DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

讲者:何志威
讲者单位:上海交通大学
报告摘要:
尽管大型语言模型(LLM)在通过强化学习(RL)解决复杂推理问题上展现出巨大潜力,但其进展受限于开源高质量训练数据的匮乏。为应对这一挑战,我们构建并发布了大规模数学数据集DeepMath-103K。该数据集具有三大核心特点:
1.极具挑战性:问题主要为高难度级别(5-9级),旨在推动模型能力边界。
2.高度纯净:通过严格流程清除了与众多标准测试基准的重叠,确保评估的可靠性。
3.答案可验证:所有问题均提供可用于基于规则的强化学习奖励的确定性答案。
此外,DeepMath-103K创新性地从Math StackExchange等更多样化的来源汲取内容,提升了数据的新颖性。实验证明,基于此数据集训练的模型不仅在多个权威数学基准上刷新了最先进(SOTA)记录,其推理能力更成功泛化至生物、物理、化学等科学领域。我们已将该数据集、代码和模型全部开源,推动社区的发展。
个人介绍:
何志威,上海交通大学四年级博士生,指导老师为王瑞副教授,主要研究方向为大模型推理。已有多篇工作发表在ACL、ICLR、ICML等会议上,谷歌学术引用1400余次。
张辛农:SocioVerse:千万级真实用户池和语言模型智能体驱动的社会模拟世界模型

讲者:张辛农
讲者单位:复旦大学
报告摘要:
社会模拟正在通过模拟虚拟个体与环境之间的互动,改变传统社会科学的研究方式。随着大语言模型(LLMs)的快速发展,这一方法在刻画个体差异和预测群体行为方面展现出越来越大的潜力。然而,现有方法在环境设置、用户目标、交互机制和行为模式等方面仍面临一致性难题。为此,我们提出了 SocioVerse,一个由LLM智能体驱动的社会模拟世界模型。该框架包括四个强大的对齐模块,并构建了一个包含一千万真实用户的用户池。我们在政治、新闻和经济三个领域进行了大规模模拟实验,结果表明,SocioVerse 能够有效反映大规模人群的动态,同时在标准化流程和最小人工干预下保证多样性、可信度和代表性。
个人介绍:
张辛农,复旦大学二年级博士生,指导老师为魏忠钰副教授,主要研究方向为计算社会科学,以及语言模型驱动的智能体社会模拟。已有多篇相关工作在ACL、EMNLP、NAACL等自然语言处理会议上发表。
黄砚星:AIM:数学家智能体系统

讲者:黄砚星
讲者单位:清华大学
报告摘要:
语言模型的数学能力随着推理模型技术的普及与发展迅速取得了大幅度的进步,在很多前沿数学问题上的表现已经接近顶尖的数学专业研究生。因此应用语言模型智能体系统自动化实现数学研究与探索的模式也逐渐成为可能。在这项工作当中我们就沿着这一方向进行了初步的探索,并在实验当中取得了较好的结果。
个人介绍:
黄砚星,清华大学准一年级博士生,指导教师为刘洋教授。主要研究方向为AI4Math,致力于探索使用AI技术助力自动化数学研究的可能,目前已有多篇工作产出。
朱心远:Hierarchical progressive learning for zero-shot peptide-HLA binding prediction and automated antigenic peptide design

讲者:朱心远
讲者单位:中国科学技术大学
报告摘要:
高亲和力的肽-人类白细胞抗原(HLA)分子结合是启动适应性免疫应答的关键。因此,精确预测肽-HLA(pHLA)结合能力对肿瘤免疫治疗及自身免疫疾病机理阐明具有重要理论与应用价值。现有方法难以对零样本HLA分型结合肽进行准确预测,限制了现有工具在更广泛人群中的应用,尤其是在需考虑个体HLA多样性的精准医疗场景。我们提出了一种创新的分级渐进学习(HPL)框架。该框架通过多层次、递进式学习策略,利用蛋白质语言模型,有效捕获并利用了不同HLA分型间共享及特有的序列模式与结合特异性,大幅度提高了预测性能。
个人介绍:
朱心远,中国科学技术大学博士生,指导教师为何向南教授和冯福利教授。主要研究方向为AI for Life Science,包括蛋白质语言模型及其应用、蛋白质结构预测等。
黄晨:How to Enable Effective Cooperation Between Humans and LLM: A Survey of Principles, Formalizations, and Beyond

讲者:黄晨
讲者单位:新加坡国立大学
报告摘要:
随着大模型的进步,智能体已从单纯的工具演化为自主智能体,拥有自主的目标和策略,能够与人协作。这一演化催生了自然语言处理领域的一种新范式,即人机合作。近年来,人机合作在众多自然语言处理任务中取得了显著进展。本次分享将对人机合作进行了全面回顾,探讨了其原理、形式化方法和尚待解决的挑战,以期为该领域更多的突破性研究铺平道路。
个人介绍:
黄晨,新加坡国立大学博士后,2025年获四川大学计算机博士学位,主要研究方向为对话式AI与大模型,在ACL、WWW、AAAI、EMNLP、FSE、COLING、NAACL、ICDM等国际顶会上发表多篇学术论文。
CCL 2025组委会
大会主席:
孙茂松(清华大学)
段培永(齐鲁工业大学)
程序委员会主席:
刘知远(清华大学)
徐睿峰(哈尔滨工业大学(深圳))
孙薇薇(剑桥大学)
本地组织主席:
吴晓明(齐鲁工业大学)
鹿文鹏(齐鲁工业大学)
张维玉(齐鲁工业大学)
评测主席:
林鸿飞(大连理工大学)
谭红叶(山西大学)
李斌(南京师范大学)
出版主席:
陈玉博(中科院自动化所)
田植良(国防科技大学)
刘正皓(东北大学)
前沿动态主席:
肖桐(东北大学)
冯骁骋(哈尔滨工业大学)
讲习班主席:
徐童(中国科学技术大学)
陈旭(人民大学)
赞助主席:
刘康(中科院自动化所)
韩先培(中科院软件所)
论坛主席:
户保田(哈尔滨工业大学(深圳))
林洲汉(上海交通大学)
热点论文主席:
林鸿宇(中科院软件所)
张倬胜(上海交通大学)
雷文强(四川大学)
宣传主席:
李鹏(清华大学)
辛欣(北京理工大学)
Web主席:
左家莉(江西师范大学)
司加胜(齐鲁工业大学)
系统展示主席:
苏劲松(厦门大学)
飞龙(内蒙古大学)
学生研讨会主席:
黄书剑(南京大学)
赵伟翔(哈尔滨工业大学)
财务主席:
王宇星(清华大学)
本地组织委员:
郑超群(齐鲁工业大学)
管红娇(齐鲁工业大学)
赵龙(齐鲁工业大学)
任晓强(齐鲁工业大学)
韩晓晖(齐鲁工业大学)
赵志刚(齐鲁工业大学)
乔新晓(齐鲁工业大学)
董祥军(齐鲁工业大学)
计算语言学专委会执委会
主任:
刘洋(清华大学)
副主任:
车万翔(哈尔滨工业大学)
张岳(西湖大学)
刘康(中国科学院自动化研究所)
秘书长:
车万翔(哈尔滨工业大学)
执委:
冯洋(中国科学院计算技术研究所)
邱锡鹏(复旦大学)
韩先培(中国科学院软件研究所)
大会信息
主办单位:中国中文信息学会
承办单位:齐鲁工业大学(山东省科学院)
会议网站:http://cips-cl.org/static/CCL2025/index.html
会议时间:2025年8月11日-14日
会议地点:济南市历下区龙奥北路8号
会议邮箱:nlp@qlu.edu.cn