
第二十四届中国计算语言学大会(The 24th China National Conference on Computational Linguistics, CCL 2025)将于2025年8月11-14日在山东省济南市举行。会议主办单位为中国中文信息学会,齐鲁工业大学(山东省科学院)承办。中国计算语言学大会创办于1991年,由中国中文信息学会计算语言学专业委员会主办。经过30年余年的发展,中国计算语言学大会已成为国内自然语言处理领域权威性最高、规模和影响力最大的学术会议。作为中国中文信息学会的旗舰会议,CCL聚焦于中国境内各类语言的智能计算和信息处理,为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。
CCL大会从2017年开始组织技术评测研讨会(Evaluation Workshop),为中文语言处理研究者提供测试相关技术、算法和系统的平台。本次大会继续组织中文语言处理技术评测CCL25-Eval。经过前期评测任务征集,CCL25-Eval组织委员会确定12个评测任务,涵盖了语义分析、医疗、古诗词理解、作文修辞识别、垂直领域、多模态、中文语音等研究方向。经过半年的评测,12个任务根据比赛结果评出一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL Anthology和ACL Anthology收录。

CCL25-Eval由山东正云与BayesDL算力服务平台提供算力赞助,另外共有8个任务由阿里云天池平台提供赛事支持。12个任务均在5月20日完成评测全部阶段,并在6月15日完成评测论文Camera-Ready版本提交。最终,CCL25-Eval共计获奖队伍56支,录用论文58篇。

为了更好地结合大模型的时代背景,CCL25-Eval在评测研讨日程中加入了两个特邀报告。特邀报告分别由山西大学的谭红叶教授和南京师范大学的李斌教授主持。

山西大学谭红叶教授
上海人工智能实验室青年科学家邵婧带来主题为“大模型及智能体安全评测体系构建:近端漏洞发现与远端风险预测”的特邀报告。报告首先简要回顾了推理大模型、智能体及具身智能的发展,阐明了从AI能力的提升到AI安全问题转变的必要性。随后,报告深入探讨了AI系统面临的不同层级风险,分别介绍了近端风险(Proximal Risk)、中程风险(Mid-range Risk)以及远端风险(Distal Risk),并强调了风险评估的重要性与挑战。通过多个评测工具和基准的样例展示,邵婧教授进一步指出,只有构建全面的安全评测体系,才能有效地识别和预测大模型在实际应用中的漏洞,特别是在多模态生成任务中可能存在的安全隐患。最后,报告呼吁学术界和工业界加强合作,推动基础研究发展的同时,在大模型和智能体的安全评测体系建设方面,进一步探索与应对AI技术带来的新型安全威胁:AI安全不只是对现有漏洞的修补,更需要建立从根源上确保系统安全的机制,推动“AI for good”的AI发展理念。

上海人工智能实验室青年科学家邵婧
西湖大学张岳教授的特邀报告题目为“大模型推理能力的综合鲁棒评估”。报告主要聚焦于大模型的“逻辑推理能力”和“分布外泛化能力”两点。首先,报告梳理了逻辑推理的定义及其发展历程,回顾了语言推理在早期人工智能应用中的局限性,特别是基于形式逻辑的自然语言理解技术面临的挑战。其次,报告通过机器阅读理解(MRC)和自然语言理解(NLI)的相关例子,探讨了逻辑推理能力的演变以及其在当前大模型时代下的应用。报告在上下文学习(ICL)和思维链(CoT)的讨论环节中,还提出了一个重要观点:当前大模型的推理能力似乎依赖于尾特征(Spurious Correlations)而非因果特征,即尽管CoT在一定程度上提升了模型的推理能力,但推理过程并没有建立在真正的因果关系之上,而是通过复制已经数据来实现推理。最后,报告进一步探讨了模型在分布外泛化性能上的表现,分析了多个数据集和基准评估上的结果,揭示了目前大模型在复杂语境中的泛化能力仍然有提升空间。

西湖大学张岳教授
任务1:第五届空间语义理解评测(SpaCE 2025)

空间语义理解评测(Spatial Cognition Evaluation,简称 SpaCE)以测试机器的空间语义理解水平为目标,自 2021年开始连续举办了四届赛事。现有评测结果显示,大语言模型在形式特征明显、形义对应关系简单的语义角色识别任务上已经达到了与人类相当的水平,但在需要调动认知能力进行深层语义理解的任务上,仍然有较大的提升空间。相较于前四届赛事,本届评测提升了数据规模,平衡了数据分布,更加专注于具有较高认知加工难度的评测任务。SpaCE 2025包含四个评测子任务:空间信息正误判断、空间参照实体识别、空间异形同义判别和空间方位关系推理。共有38支队伍报名,12支队伍提交结果,6支队伍获奖,4篇论文被录用。

任务2:第三届汉语框架语义解析评测

框架语义解析(Frame Semantic Parsing,FSP)是一项基于框架语义学的细粒度语义分析任务,其目标是从句子中提取框架语义结构,实现对句子中事件或情境的深层理解。为了进一步的评估和提升模型在细粒度语言理解上的能力,本届评测新推出了基于CFN2.1的评测任务,重点关注模型在面向语义嵌套现象时的分析能力,并改进现有分析工具在面临框架元素的嵌套和融合等语言现象时容易遗漏部分角色信息的问题。评测包含三个子任务:框架识别、论元范围识别和论元角色识别。共有156支队伍报名,16支队伍提交结果,3支队伍获奖,4篇论文被录用。

任务3:第五届中文抽象语义表示解析评测(CAMRP 2025)

抽象语义表示(Abstract Meaning Representation,AMR)将句子抽象成一个单根有向图,拥有较强的语义表示能力,被广泛应用于机器问答和文本摘要等下游任务中。中文抽象语义表示(Chinese Abstract Meaning Representation,CAMR)在AMR基础之上,针对汉语的语言特点,新增了概念对齐和关系对齐信息的标注,同时弥补了AMR没有对虚词进行表示的不足。为了进一步将句子级AMR解析拓展至篇章级共指关系解析,本届评测新增了500篇篇章CAMR语料,以考察解析系统在篇章指代消解上的表现。CAMRP 2025包含两个子任务:句子级CAMR解析和篇章级CAMR共指解析。共有96支队伍报名,4支队伍提交结果,1支队伍获奖,2篇论文被录用。

任务4:第一届中文叙实性推理评测(FIE 2025)

叙实性推理(Factivity Inference, FI)是一种与事件真实性判断有关的语义理解任务,是真实性推理(Factuality Inference, FactI)的一种形式。作为语言推理的一种重要的导航机制和手段,叙实性推理具有明确的语言形式方面的线索,是机器进行文本蕴涵识别(textual entailment recognizing)、幻觉处理(hallucination solving)、信念修正(belief revision)等任务的重要的语义基础和形式依据,同时对信息检索、信息抽取、问题回答、情感分析等下游任务都具有重要价值。为了提升大型语言模型对中文的语义理解能力,进一步实现机器对人类交际话语的深度理解,第一届中文叙实性推理评测主要关注两个方面的问题:大模型的中文叙实性推理表现如何?不同的提示词编写方式对大模型的叙实性推理的结果会产生何种影响?本次评测共218支队伍报名,70支队伍提交结果,7支队伍获奖,10篇论文被录用。

任务5:第一届中文诗词赏析评测

中文古诗词(Chinese Ancient Poetry)作为传统文化的瑰宝,具有高度凝练性和语言的音乐美,讲究对仗、平仄和押韵。理解中文古诗词的语义,不仅需要掌握古诗的语言特性,还需要调动对历史、文化背景的知识,结合对古诗中所描绘的自然景象和人物情感的认知,从而进行综合性的理解与推理。中文古诗词赏析评测(Evaluation on Chinese Ancient Poetry Appreciation, CAPA)旨在评估自然语言处理模型对古诗词内容及情感进行深入赏析的能力,包括两个子任务:古诗词文本理解和古诗词情感赏析。共计55支队伍报名,6支队伍提交结果,3支队伍获奖,6篇论文被录用。

任务6:第二届中文作文修辞识别与理解

在中文作文写作中,文采作为语言表达的形式特征,其水平高低往往通过各类修辞的运用表现出来。因此,对作文中修辞格运用的识别和理解,不仅反应了作文的文采水平和语言表达能力,对于帮助教师评估作文质量,指导学生提升语言表达能力也有重要意义。本次评测的数据集来自真实教学场景中汉语为母语的中小学作文,作文体裁涵盖记叙文和议论文等文体。相比上一届,本届新增了4种修辞格类型,并将数据集拓展至段落文档级,更加适合跨句群的修辞形式。评测共设有3个赛道:中文作文修辞形式类型识别、中文作文修辞内容类型识别和中文作文修辞成分抽取。共计29支队伍报名,8支队伍提交结果,3支队伍获奖,4篇论文被录用。

任务7:第一届中国文学语言理解评测(争鸣)

中国文学融合了丰富的艺术、历史文化和深厚的情感,给自然语言处理(NLP)模型带来巨大的挑战。模型需要深入理解文本中的语言特点、文化背景和修辞技巧,准确把握古典与现代文学的差异,包括多义性、象征性语言的使用,以及社会现实与情感表达的交织。中国文学语言理解评测-争鸣(Chinese Literary Language Understanding Evaluation,ZhengMing)任务旨在从现代文学批评倾向、现代文学批评挖掘、古代文学知识理解、文学阅读完形填空、文学命名识别识别、文学作品风格预测和文学语言风格转换等5个子任务多角度评估模型对文学语言理解的综合能力。此外,争鸣还提供现代文学批评倾向和现代文学批评挖掘2个域外任务,用于评测模型的泛化能力,确保其在不同文本和任务间的适应性。最终共计89支队伍报名,6支队伍提交结果,3支队伍获奖,5篇论文被接收。

任务8:中文电子病历ICD诊断编码评测

为实现医疗数据的标准化管理和共享,世界卫生组织制定了国际疾病分类标准(International Classification of Diseases,ICD)。该标准将数万种疾病及其组合转化为规范的字母数字编码体系,为跨地区、跨机构的医疗数据交换与分析奠定了基础。然而,将电子病历文本手动转换为ICD编码不仅耗时耗力,还容易出现人为失误。开发自动化的ICD编码系统,既能提高编码效率和编码一致性,也能为疾病研究和医疗管理提供更可靠的数据支持。基于这一背景,本评测构建了一个专门用于评估中文电子病历ICD诊断编码的数据集,该数据集基于脱敏病历数据而构建,共涉及5种主诊断和32种其他诊断ICD(ICD-10)编码,共计1485条数据。评测共有445支队伍报名,36支队伍提交结果,5支队伍获奖,5篇论文被录用。

任务9:中医辨证辨病及中药处方生成评测

中医作为中国传统医学的重要组成部分,历经数千年的发展,已形成独具特色的理论体系和诊疗方法,对中国乃至全球人民的医疗健康做出了重要贡献。为了推动人工智能在中医领域的应用、推动中医现代化的发展,本任务构建了一个新的用于评估中医辨证辨病及处方推荐的数据集。该数据集基于脱敏病历数据而构建,共涉及10种中医证型、4种中医疾病、381种中药,共计1500条数据。任务旨在评估辨证论治的算法性能,包括两个子任务:中医多标签辨证辨病和中药处方推荐。共有123支队伍报名,35支队伍提交结果,7支队伍获奖,5篇论文被录用。

任务10:细粒度中文仇恨言论识别评测

随着社交媒体的普及,用户生成内容呈现出爆炸性增长的态势,也滋生了仇恨言论的传播。仇恨言论是基于种族、宗教、性别、地域、性取向、生理等特征对特定个体或群体表达仇恨、煽动伤害的有害言论。在《中华人民共和国治安管理处罚法》以及《互联网信息服务管理办法》等多部法律法规中,均有禁止仇恨言论的规定。如何有效识别仇恨言论已经成为自然语言处理领域研究者广受关注的问题。细粒度中文仇恨言论识别评测旨在构建结构化的仇恨言论四元组,包括评论对象、论点、目标群体、是否仇恨,推动中文仇恨言论识别技术的发展,加强对不良网络行为的管控,助力文明网络的建设。评测共有394支队伍报名,140支队伍提交结果,8支队伍获奖,5篇论文被录用。

任务11:大学生汉字硬笔书写质量评测

汉字书写能力是大学生语言文字应用能力的重要组成部分,体现了大学生人文素养。在汉字书写质量评价领域,传统的深度学习方法在提供细粒度、个性化的文本评价方面仍有不足。大语言模型凭借其强大的自然语言理解和生成能力,为解决这一问题提供了新的思路,大语言模型可以根据输入的特征生成详细、个性化的评价意见,模仿人类专家的评价风格。本次评测旨在利用多模态大语言模型进行图像理解与文本生成,弥补现有评价方法在提供个性化的细粒度评价与反馈方面的不足,实现从单一的人工评价到个性化智能评价的跨越。评测包括以下两个子任务:汉字书写质量评级和汉字书写质量评语反馈。共有8支队伍报名,3支队伍提交结果,3支队伍获奖,4篇论文被录用。

任务12:面向中文语音的实体关系三元组抽取评测

针对中文语音的实体关系三元组抽取任务(Chinese Speech Entity-Relation Triple Extraction Task,简称CSRTE)的目标,是从中文语音数据中实现端到端的自动识别与提取命名实体及其相互作用,进而构建出结构化的语音关系三元组(包括头实体、关系和尾实体)。该任务致力于提高中文语音关系三元组抽取的精确度和效率,增强系统在多样化语境及复杂语音环境中的适应性和鲁棒性,从而实现从语音输入到三元组输出的全自动处理流程。本次评测基于Common Voice 17和AISHELL两个语音识别数据集中的中文语音资源,共包含近20000条真人朗读的中文语音数据,其中实体的数量超过40000个,关系三元组数量超过20000个。最终共有257支队伍报名,59支队伍提交结果,7支队伍获奖,4篇论文被录用。

总结
CCL25-Eval总计参赛队伍1908支,奖金7.3万元,获奖队伍56支,被接收论文58篇(中文29篇,英文29篇)。本届技术评测录用的所有论文将继续以中英文形式发布在ACL Anthology的CCL track中,以提升评测的国内外影响力,推动中文信息处理技术的发展。

南京师范大学李斌教授
南京师范大学李斌教授对CCL25-Eval进行了总结报告:本届评测共设立了十二个多样化的任务,涵盖了多个领域,且所有任务均由高校主办,具有较强的学术背景。评测的三大关键词为:大模型微调、多模态技术和细分垂直领域应用。与往届相比,今年的评测任务吸引了大量学术界和工业界的团队参与,关注度显著提升。同时,本届评测在理论深度、学术价值以及探索性方面都进行了创新,取得了一定的突破。

评测研讨Panel讨论
总体而言,CCL25-Eval作为近年来评测任务数量最多的一届,展示了自然语言处理研究的复杂性,也反映了大模型时代背景下技术评测的必要性和重要性。参赛队伍在各个评测任务的优异表现,不仅服务了社会需求,也推动了学术研究进步,为中文信息处理和自然语言处理领域的发展注入了新的动力、提供了新的方向。
CCL 2026将由武汉大学和三峡大学联合承办,CCL26-Eval评测研讨也即将开启任务征集与报名工作,请继续关注会议信息。