评测发布


第二十五届中国计算语言学大会(CCL26-Eval)
技术评测任务发布

第二十五届中国计算语言学大会(The 25th China National Conference on Computational Linguistics, CCL 2026)将于2026年10月15至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议,是中国最大的自然语言处理学者和专家的社区。经过三十年的发展,CCL被广泛认为是最权威的,全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展,CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

本次大会继续组织中文语言处理技术评测CCL26-Eval。经过前期评测任务征集,CCL26-Eval组织委员会已确定13个评测任务,涵盖语义分析、篇章、语用分析,跨语言、小语种、低资源自然语言处理,知识图谱,自然语言处理与医疗、教育、人文、司法等领域结合应用,生成式AI与大模型核心能力等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL Anthology和ACL Anthology收录。

评测主席:林鸿飞(大连理工大学,hflin@dlut.edu.cn)、谭红叶(山西大学,tanhongye@sxu.edu.cn)、杨亮(大连理工大学,liang@dlut.edu.cn)

一、自然语言处理基础任务

1. 语义分析/篇章、语用分析

任务一:第二届中文叙实性推理评测

任务简介

叙实性推理(Factivity Inference, FI)是一种跟事件真实性判断有关的语义理解任务,是真实性推理(Factuality Inference, FactI)的一种形式。在人类的会话交际中,叙实性推理能力主要表现为语言使用者可以从某些动词性语言成分(如"相信""谎称""意识到"等)的使用获取说话人和句子主语的心理状态,并据此推定相关事件的真实性(真还是假)。例如,从肯定句"他们意识到局面已经不可挽回"和相应的否定句"他们没有意识到局面已经不可挽回"上,都可以推理出在说话人眼中存在这样一个事实:"局面已经不可挽回"。进行此类推理所使用的知识是一种受世界知识(world knowledge)影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识(analytical knowledge of language)。比如,上面例句中的动词"意识到"要求(预设)它的宾语"局面已经不可挽回"的所指大概率为真,不管该动词前面有没有否定性词语。

为进一步提升大型语言模型对中文的语义理解能力,实现机器对人类交际话语的深度理解,我们将在FIE2025的基础上继续推出"第二届中文叙实性推理评测任务"。本届评测任务将着重考察大型语言模型在复杂语境条件和少样本提示下的叙实性推理表现。

相较FIE2025,本届评测的数据集涵盖了数量更多的叙实性谓词(约500个)以及更加多样的语境条件,例如否定词"不、没有、差点",否定意愿"不敢、不想、不愿、难以",被动化操作"被、被迫",评价性状语"正确地、错误地",多声性标记"并不、绝不",等等。例如:从"我不能相信他竟是一个八十多岁的老人",可以推出"他是一个八十多岁的老人"大概率为真;而从"我不能相信人可以长生不老",可以推出"人可以长生不老"大概率为假。

任务描述

参赛队伍需要利用组织方发布的样例集与评测集自行设计提示词(prompt),在获取LLMs的回答后整理为统一的输出格式。每条评测集数据以一个文本蕴含关系句对<Aa, a>的形式呈现,数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况,并给出对该判断的置信度。例如:
主蕴含句Aa:老张并没有注意到她今天穿了一件红色的连衣裙。
被蕴含句a:她今天穿了一件红色的连衣裙。
模型判断:被蕴含句95%为真。
输出答案(JSON字段):{"factivity":"true","confidence":"0.95"}。

此外,本届评测将继续设置不微调(non-finetuning)和微调(finetuning)两条赛道。不微调赛道不允许对模型本身做任何修改;微调赛道可以利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

组织者和联系人

  • 任务组织者:袁毓林(澳门大学教授)、李斌(南京师范大学教授)
  • 任务联系人:丛冠良(澳门大学博士生,guanliang.cong@connect.um.edu.mo);寻天琦(澳门大学博士生,tianqi.xun@connect.um.edu.mo)

任务奖项

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖,奖项按总得分从高到低颁发。其中,一等奖0-1名,二等奖0-2名,三等奖0-3名。各奖项奖金待定。

任务网址

https://github.com/UM-FAH-Yuan/FIE2026

任务二:非字面义翻译和理解评测

任务简介

评测面向谚语、成语、习语、俚语、典故等非字面表达的中英翻译与识别,重点考察模型对非字面意义的理解、跨语言文化映射能力以及语用效果保持能力。任务构建了"生成+判别"互补评测框架,用于检验模型的非字面义表达生成能力和标准非字面义辨识能力。评测数据共5000条高质量样本,涵盖Gold(习语/谚语体等值表达)和Silver(解释性等价改写)两类参考。本次评测包括两个子任务。

  • 子任务1:非字面义中文翻译为英文
    给定一条包含谚语、成语、习语等非字面表达的中文句子,模型需生成1条自然、地道、具有文化映射特征的英文译文,优先采用英语中现成的习语、谚语、格言或固定搭配进行等值替代。
  • 子任务2:非字面义中英选择
    给定一条非字面表达的中文句子及若干个英文候选,模型需进行不定项选择,识别并输出与中文在英语语境中构成公认等值替代关系的Gold标签项。

组织者和联系人

  • 评测组织者:张冬瑜(大连理工大学教授)
  • 任务联系人:杨森淇(大连理工大学博士生,ysq1997@mail.dlut.edu.cn)

任务奖项

本届评测设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/DUTIR-YSQ/CCL2026-Non-literal-Translation-Task

2. 跨语言、小语种、低资源自然语言处理

任务三:跨主流语言与低资源语言对齐的大模型金融评测

任务简介

MapFinBen是首个专门评估大语言模型在高资源语言与低资源语言之间跨语言资源的多语言金融评测基准。该基准覆盖了五类具有代表性的金融任务,全面反映真实金融应用场景中的多样化需求。

在语言设置上,MapFinBen同时涵盖高资源语言(英语和中文)与多种低资源语言(印度尼西亚语、西班牙语、希腊语和日语),有效缓解了现有金融语言模型评测中对高资源语言过度依赖的问题。通过统一的任务设计与评测标准,该框架能够系统评估大模型跨语言、跨资源条件下的金融任务处理能力。

MapFinBen基准由五个子任务构成,通过综合评估模型在各子任务上的表现来确定最终成绩。具体任务如下:

  • 子任务一:金融选择问答(FinAS)
    给定一段金融文本及其对应的问题和候选选项,模型需要从多个备选答案中选择最符合问题语义和金融语境的正确答案。
  • 子任务二:金融文本问答(FinQA)
    给定一段金融文本,模型需要根据文本内容回答与之相关的金融问题。
  • 子任务三:金融情感分析(FinSA)
    给定一段金融文本,模型需要识别文本所表达的情绪倾向,并将其分类为积极、中性或消极。
  • 子任务四:金融主题分类(FinTC)
    给定一段金融文本及候选主题类别,模型需要根据文本内容将其归类到最合适的金融主题类别中。
  • 子任务五:金融文本摘要(FinTS)
    给定一段金融文本,模型需要提取并生成简洁、准确的摘要,以概括文本的核心信息和主要内容。

各子任务的数据分布、数据结构、具体评测指标及其计算方式,以及最终成绩的计算方法,详见任务网址。

组织者和联系人

  • 评测组织者:胡刚、岳昆(云南大学),彭敏(武汉大学),石磊(云南师范大学)
  • 评测联系人:孔晓勇(kongxiaoyong@stu.ynu.edu.cn)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/HgITSE/MapFinBen

任务四:低资源缅甸语固定模版语句推理评测

任务简介

在缅甸语等低资源语言的翻译中,固定模版语句的推理作为垂类的任务,其语言内部的词性、地名、多元价值观等显著影响着最终的翻译质量。

格式与习惯差异:例如,中文的"第1名"、"第3章",在缅甸语意为"编号"或者"号",后面需要紧跟缅甸语数字。地名转写冲突:地名转写往往与缅甸语特有发音、历史习惯冲突,导致中文直接转写容易出现混乱。多元价值观影响:翻译受种族、宗教以及集体主义的影响,不能简单直译。必须充分考虑当地的文化敏感性和宗教背景,否则极易引起误解或反感。

作为固定模版语句的推理任务,机器具体要适应的是模版格式、幻觉处理等任务的重要形式依据。为了提升翻译大模型在缅甸语上的翻译质量,进一步实现机器对人类固定模版语句的深度理解,我们正式推出本次评测任务。

组织者和联系人

  • 评测组织者:陈自岩、刘劲松(新译信息科技有限公司)朱少林(天津大学)
  • 评测联系人:任虹(天津大学博士生,rhong@tju.edu.cn)吴川(天津大学硕士生,wuchuan@tju.edu.cn)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。奖金由新译信息科技有限公司赞助。

任务网址

https://github.com/merc11/CCL-2026

二、自然语言处理应用

1. 知识图谱

任务五:杂粮育种信息抽取评测

任务简介

杂粮育种领域积累了大量以自然语言形式呈现的知识,广泛分布于论文、品种审定与栽培技术规程等文本中。这些文本记录了育种材料来源、目标性状及测定结果,同时也包含栽培管理条件、胁迫处理信息以及分子标记等证据。由于杂粮育种文本专业术语密集、概念表述多样,且材料名称与试验要素常存在嵌套表达,导致关键信息难以稳定抽取和统一结构化,从而限制了知识检索、证据汇总和育种决策支持等应用的发展。

杂粮育种信息抽取评测(Minor Grain Breeding Information Extraction Evaluation, MGBIE)旨在面向杂粮育种知识管理与数据资源建设需求,系统评估信息抽取模型在杂粮育种相关专业术语识别、育种语境理解、关键信息抽取与结构化表达等方面的能力。MGBIE数据集总规模为2000条样本,其中训练集、验证集和测试集分别包含1000条、400条和600条,用于支持模型的训练、调优与综合性能评估。

MGBIE 2026包含以下两个子任务:

  • 杂粮育种命名实体识别:从杂粮育种相关文本中识别并抽取关键实体信息,并输出相应的实体边界及其类型标签。实体类型标签体系涵盖杂粮育种领域的核心概念,共包括12类:作物、品种、性状、生育时期、基因、数量性状位点、分子标记、染色体、育种方法、亲本/杂交组合,非生物胁迫以及生物胁迫。
  • 杂粮育种关系抽取:在已识别实体的基础上,进一步抽取实体之间的语义关系,并以关系三元组的形式进行结构化表示。关系类型体系共包含6类语义关系,分别为:包含、采用、具有、影响、发生于和定位于。

组织者和联系人

  • 评测组织者:胡志伟、孔照胜、高建华(山西省后稷实验室、山西农业大学);谭红叶、闫智超、李茹(山西大学);谢倩倩(武汉大学)
  • 任务联系人:杨森杰(山西大学硕士生,yangsenjie1@sxu.edu.cn)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/zhiweihu1103/CCL2026-MGBIE

2. 自然语言处理与医疗、教育、人文、司法等领域结合应用

任务六:中文电子病历疾病与手术ICD自动编码评测

任务简介

近年来,随着人口老龄化加剧和健康意识提升,医疗体系面临着日益增长的服务压力。在医疗信息化进程中,电子病历的广泛应用为解决这一挑战提供了新的可能。为实现医疗数据的标准化管理和共享,世界卫生组织制定了国际疾病分类标准(International Classification of Diseases,ICD)。该标准将数万种疾病及其组合转化为规范的字母数字编码体系,为跨地区、跨机构的医疗数据交换与分析奠定了基础。

然而,对电子病历文本进行人工ICD编码不仅耗时耗力,还容易因专业技能差异导致编码错误。开发自动ICD编码系统,既能提高编码效率和准确率,也能为疾病研究和医疗管理提供更可靠的数据支持。基于上述背景,本任务构建了一个中文电子病历ICD自动编码数据集,该数据集基于脱敏病历数据而构建,共涉及10个科室,19种主要疾病编码,若干种其他疾病编码,16种主要手术编码,若干种其他手术编码,共计2200条数据。该任务给定一段由临床信息构成的文本作为输入,需要模型输出对应的主要疾病编码、其他疾病编码、主要手术编码、其他手术编码。

组织者和联系人

  • 评测组织者:管红娇、鹿文鹏(齐鲁工业大学(山东省科学院))、廉颖、陈国强(山东第一医科大学第一附属医院)
  • 任务联系人:李传龙(齐鲁工业大学硕士生,icdevaluator@163.com)

任务奖项

本届评测将设置一等奖1名,二等奖3名,三等奖6名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/QLU-NLP/icdevaluator-26

任务七:跨语言文学文本情感分析一致性评测

任务简介

随着多语言大模型(Multilingual Large Language Models, MLLMs)的快速发展,自然语言处理技术在现代通用语料上的表现已趋于成熟。然而,在面对具有高语境依赖性和深厚文化底蕴的中国古典文学时,现有的情感分析技术仍面临巨大挑战。中国古典文学的情感表达具有典型的"含蓄蕴藉"与"托物言志"特征,往往依赖特定意象、历史典故以及复杂修辞来传递情绪,而非直接使用情感形容词。为此,本评测提出中英双语古典文学跨语言情感分析评测任务(BCCL-CSA),用于评估模型在古典文学语境中的情感理解能力以及跨语言语义对齐能力。

  • 子任务一:细粒度情感识别能力评估
    参赛系统需对给定的中文古典原文及其对应的英文译文进行独立的情感特征捕获。这一任务考察模型是否具备克服古今语言差异的能力,以及在目标语言(英语)中准确还原古典意境情感的能力。评测将从以下维度评估:
    1. 情感极性识别准确率Acc_pol:准确识别文本的情感极性(积极、中性、消极)。
    2. 情绪分布识别精度F1_emo(情绪Macro-F1):准确预测文本在六种基本情绪(快乐、悲伤、恐惧、愤怒、惊讶、厌恶)上的概率分布。
    3. SubScore1 = 0.4 × Acc_pol + 0.6 × F1_emo
  • 子任务二:跨语言情感表征一致性评估
    该任务关注模型在不同语言间的情感映射稳定性,即同一语义内核在不同语言表征下的一致性。
    极性判断一致性(Con_label):评估同一组中英句子对在预测结果中极性标签的匹配程度。
    情绪分布相似度Sim_dist(情绪分布余弦相似度):通过计算中英情绪概率向量的相似性,评估模型跨语言情感空间的表征对齐质量。

数据集说明:数据集CCL-SEL,来源于12部中国经典著作,每部著作各250组中英句子对。

最终排名得分:Total_Score = 0.5 × Sub_Score_1 + 0.5 × Sub_Score_2

组织者和联系人

  • 测评组织者:张海洋、张霄军(西交利物浦大学);徐睿峰(哈工大深圳)
  • 任务联系人:周静狮(Jingshi.Zhou@outlook.com)

任务奖项

一等奖1名,二等奖2名,三等奖3名。

任务网址

https://github.com/Jingshi-Zhou/-BCCL-CSA-2026-

任务八:大语言模型生成中文医疗内容的循证事实核查

任务简介

循证事实核查(Evidence-based Medical Fact-checking)是一项旨在验证在线医疗内容真实性的关键任务。随着互联网成为公众获取医疗健康信息的主要渠道,医疗虚假信息的泛滥给公共卫生安全带来了严峻挑战。该任务要求模型不仅要理解医疗声明(Claim),还需要结合检索到的相关证据(Evidence),判断证据对声明的支持程度(如支持、反驳或证据不足)。这一过程对于提高医疗信息的透明度、减少误导性信息的传播具有不可替代的作用,同时也是构建可信赖的医疗问答系统和智能医疗助手的核心安全屏障。

任务的具体目标定义如下:给定一组由大语言模型生成的医疗论断及其对应的证据,模型应预测正确的标签(即真实性),从而判断证据支持或反驳该论断的程度:

  • 支持(Supported):证据完全支持声明的内容;
  • 部分支持(Partially Supported):证据支持声明的部分内容,但存在不确定性或未覆盖的细节;
  • 反驳(Refuted):证据与声明内容相矛盾;
  • 不确定(Uncertain):证据与声明相关,但不足以证实或反驳声明的真实性;
  • 不适用(Not Applicable):证据与声明完全不相关。

组织者和联系人

  • 评测组织者:苏炯龙、蒋正雍、王唯(西交利物浦大学)
  • 任务联系人:陈彤(西交利物浦大学,Tong.Chen19@student.xjtlu.edu.cn)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/AshleyChenNLP/MedFact

任务九:第二届古诗词赏析评测

任务简介

中文古诗词具有高度凝练性和语言的音乐美,讲究对仗、平仄和押韵。为了准确理解古诗的语义,不仅需要掌握古诗的语言特色,还需要调动对历史、文化背景的知识,结合对古诗中所描绘的自然景象和人物情感的认知,从而进行综合性的推理与理解。

为了进一步衡量模型在中文古诗词赏析场景中的语言理解深度与文化推理能力,我们推出第二届中文古诗词赏析评测。在第一届的基础上,本届评测进一步聚焦模型的深度理解与复杂推理能力,引入更具挑战性的高级任务,以全面考察模型对古诗词文化内涵与高层语义结构的掌握程度。具体任务设置如下:

任务一:古诗词理解

  • 古诗词字词理解:解释古诗词中短语级别的语义。本子任务通过问答题的形式对待测系统进行评估。
  • 古诗词诗句理解:解释古诗词中诗句级别的语义。本子任务通过问答题的形式对待测系统进行评估。
  • 古诗词情感理解:推断诗人透过作品所传达的情感。本子任务通过选择题的形式对待测系统进行评估。
  • 典故识别:判断诗句中是否包含典故并进行解释。本子任务通过问答题的形式对待测系统进行评估。

任务二:古诗词推理

  • 古诗词类比:发现古诗词中不同事物之间的相同关系,意象的关联。本子任务通过问答题的形式对待测系统进行评估。
  • 古诗词辨析:依据诗词内容与语境,对给定选项进行辨析,判断其中表述最为合理的一项。本子任务通过选择题的形式对待测系统进行评估。

本评测将根据两个任务的综合性能来确定最终成绩排名。本评测旨在评估自然语言模型自身对中文诗词的理解水平,参赛队伍可以使用开源大语言模型进行微调,禁止使用RAG等技术来利用外部知识回答问题。

组织者和联系人

  • 评测组织者:白雪峰、陈科海(哈尔滨工业大学(深圳))
  • 任务联系人:朱颖杰、裴振武(哈尔滨工业大学(深圳),zhuyj@stu.hit.edu.cn)

任务奖项

  • 一等奖1名,奖金合计3000元;
  • 二等奖1名,奖金合计2000元;
  • 三等奖1名,奖金合计1000元。

所有奖金将在公布奖项后10个工作日内发布。

任务网址

https://github.com/HITICI-NLPGroup/CCPA-EvalTask

三、生成式AI与大模型核心能力

任务十:基于情景的常识推理评测

任务简介

推理是一种高级认知功能,涉及基于现有知识对新信息进行分析、归纳和演绎。它在人类智能中起着基础性作用。虽然以往的基准测试主要侧重于评估大语言模型(LLMs)在复杂、专业领域内的推理能力,但它们往往忽视了类人认知的一个关键方面:常识推理。评估大型语言模型中的这种常识推理能力对于人工智能的发展至关重要。这种基本能力显著影响着LLMs在日常情境中的决策,并且对于在通用人工智能(AGI)中迈向类人智能至关重要。

为了全方位、细粒度地诊断大模型的常识推理能力,我们提出了基于情景的常识推理评测数据集(Scenario-based Commonsense Reasoning Evaluation, SCoRE),用以评估大语言模型在常识场景下的复杂逻辑推理能力。根据所涉及的常识领域,该数据集包含的任务可分为以下五类:

  • 空间常识推理:给定一个空间场景和若干已知的实体间方位关系,本任务要求机器推理出实体在空间场景中的位置,以及未知的方位关系。
  • 时间常识推理:给定一个包含若干事件的时间叙述场景和已知的事件间时间关系(如先后顺序、持续时长、相对或绝对时间点),本任务要求机器推理出事件在时间轴上的具体时刻,以及未知的事件间时间跨度或次序关系。
  • 社会常识推理:给定一个社会交互场景和若干已知的人物间人际关系(如亲属、职场、朋友或师徒关系),本任务要求机器推理出人物在社会网络中的具体角色或地位,以及人物间隐含的或未知的社会关系。
  • 自然常识推理:给定一组自然物体(或实体)和若干已知的属性约束条件(如类别归属、物理性状、功能用途或感官特征),本任务要求机器推理出物体与描述(或位置)的一一对应关系,以及物体未知的属性或分类特征。
  • 融合常识推理:融合领域任务描述旨在构建一个多维度条件交织的推理问题。它要求机器同时处理来自空间、时间、自然属性及社会关系等多个领域的约束与常识,并建立统一的推理模型以进行协同分析与决策。其核心挑战在于,单一领域的逻辑链条不足以解决问题,必须识别并整合不同领域的隐含联系,才能对复杂多因素情境进行有效推断。

组织者和联系人

  • 评测组织者:詹卫东、穗志方(北京大学)
  • 任务联系人:胡楠(北京大学博士生,hunan@stu.pku.edu.cn)

任务奖项

  • 一等奖0-1名;
  • 二等奖0-2名;
  • 三等奖0-4名。

任务网址

https://pku-space.github.io/SCoRE2026/

任务十一:面向自动驾驶的自动化危害分析与风险评估评测任务

任务简介

随着汽车电子电气架构(E/E架构)向智能化与网联化深度演进,功能安全已超越早期以机械系统为主的工程保障范畴,演变为覆盖软硬件协同设计的系统化安全工程体系,成为自动驾驶技术落地与量产的关键基石。在此体系中,危害分析与风险评估(HARA, Hazard Analysis and Risk Assessment)承担着风险识别与顶层安全需求定义的核心职能。该过程通过对车辆运行场景、潜在功能失效模式及环境要素的系统化建模,提取车辆运动状态、道路拓扑及交通参与者分布等关键特征,并基于严重度(S)、曝光率(E)和可控性(C)三个维度对风险进行量化评估,确定汽车安全完整性等级(ASIL),并将评估结果转化为顶层安全目标,进而分解为可验证的软硬件安全需求,指导系统设计与工程实施。

为推动大模型与人工智能技术在预期功能安全及功能安全领域的落地应用,提升HARA流程的自动化与智能化水平,我们提出"面向自动驾驶的自动化危害分析与风险评估评测任务"并构建了一个专注于评估自动驾驶安全逻辑推理与需求生成的结构化数据集。该数据集源自脱敏的真实工业项目数据,聚焦于动力系统核心高危失效模式——"非预期驱动力/扭矩输出",共包含3,000条高质量标注数据。

本次评测包括以下两个子任务:

  • 危害事件识别与场景描述生成:该任务要求模型基于给定的车辆运行工况与环境参数,精准识别潜在的危害事件,并生成符合工程规范的危害场景结构化描述。
  • 风险参数评定与等级推理:该任务要求模型基于场景特征,推理并输出HARA分析的关键风险指标(S/E/C),并据此判定相应的安全完整性等级。

组织者和联系人

  • 评测组织者:杨旭(北京理工大学),张海洋(西交利物浦大学),王唯(西交利物浦大学)
  • 任务联系人:王子木(西交利物浦大学博士生,Zimu.Wang19@student.xjtlu.edu.cn)

任务奖项

  • 一等奖1名,奖金合计5000元
  • 二等奖1名,奖金合计3000元
  • 三等奖1名,奖金合计2000元

赞助情况

本次评测奖金由优策科技(福州)有限公司赞助。

任务网址

https://ccl2026-hara.github.io

任务十二:优酷无障碍剧场杯——面向听障群体的信息无障碍结构化字幕生成评测

任务简介

在我国已进入"制度保障"阶段的信息无障碍建设背景下,字幕已成为听障及老年群体获取音视频信息的关键无障碍服务。然而,现有技术评测缺乏面向真实应用场景、统筹考量"可读性"、"核心信息准确度"与"响应速度"的基准。本任务从"AI字幕是基础设施"的视角出发,系统评测从"语音/视频输入"到生成"面向人类阅读的结构化字幕文档"的完整链路,特别聚焦于解决高信息密度真实场景(如医疗、金融、政务办事)中"社交时差"与"关键信息丢失"两大痛点。

为贴近不同应用环境,评测任务被设计为两个平行赛道,以全面评估技术的能力上限与落地可行性:

  • 赛道A:PC端模拟云端或高性能桌面环境,旨在探索技术性能上限,不限制计算资源。
  • 赛道B:手机端模拟移动设备(手机、AR眼镜)实时交流场景,对模型体积、内存占用及实时性提出明确的约束要求。

每个赛道均包含以下两个子任务:

  • 子任务一:基础字幕生成(Foundation Track)
    评估语音转写、时间戳对齐、噪声鲁棒性等基础能力。评测指标:转写准确性、时间轴对齐精度、复杂多人场景下的综合处理能力。
  • 子任务二:结构化可读字幕生成(Structured Track)
    评估模型生成符合人类阅读习惯、包含合理断句、标点、说话人区分、并确保核心关键词准确性的结构化字幕的综合能力。
    自动评测指标:文本准确性、核心词召回率、模拟显示延迟、时间轴合理性偏差、结构一致性。
    人工评测指标(抽样):可读性(1-5分)、关键信息完备性、断句合理性、标点与语气匹配度、幻觉文本严重程度。

数据规模与来源:本评测构建了总规模约30–50小时的多场景真实语音/视频测试集,涵盖新闻演讲、影视综艺、生活真实交流、多人会议等四类典型场景。其中,约10–15小时的核心子集提供更高粒度的结构化标注与核心关键词标注,支持子任务二的深度评测。

组织者和联系人

  • 评测组织者:姚登峰(北京联合大学/清华大学)
  • 任务联系人:施杰(北京联合大学硕士,20251083510951@buu.edu.cn)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会为获奖队伍颁发荣誉证书;同时设立赞助奖项,由阿里巴巴等头部科技企业提供奖品支持。

任务网址

https://github.com/ALINOSJ/IASSGE-2026

任务十三:图像文本翻译质量评测

任务简介

随着全球化进程加速和跨语言交流需求增长,图像文本翻译(In-Image Translation,简称"图翻")已成为机器翻译的重要分支。与传统文本翻译不同,图翻需同时处理视觉与语言信息,涵盖文本检测、识别、翻译与渲染等多个环节,在跨境电商、旅游导览、多语言内容本地化等场景中具有广泛应用价值。中文图翻面临独特挑战:汉字视觉复杂性高、书写方向多样(横排/竖排)、与目标语言存在显著文本长度差异,且蕴含丰富文化内涵。尽管大型多模态模型在图像理解方面取得进展,但在保持视觉一致性的前提下实现高质量图翻仍困难重重。尤其在电商场景中,系统需区分"应翻译内容"(如功能说明)与"应保留内容"(如品牌标识),对翻译完整性与合规性提出更高要求。现有机器翻译评测指标(如BLEU、METEOR)仅关注文本准确性,无法衡量视觉呈现、排版布局、美学协调等关键维度。而人工评测成本高、主观性强、难以规模化。因此,亟需建立标准化、多维度、可自动化的图翻质量评测框架。

本次评测聚焦于如何设计和训练能够从多个维度对图像翻译结果进行精准评分的自动评测系统,旨在:建立标准化基准,构建包含多场景、多维度人工标注的大规模评测数据集;推动方法创新,鼓励研究者设计能够模拟人类专家判断的自动评测模型;探索评测范式,通过开放式竞赛发现在不同应用场景下最有效的评测策略;促进社区共识,为图像文本翻译质量评测建立可复现、可比较的评价标准。

组织者和联系人

  • 评测组织者:李海军、尚姿芙、梁杰、徐昭、骆卫华
  • 任务联系人:韩雨轩(阿里云技术专家,baileng.hyx@alibaba-inc.com)

任务奖项

  • 一等奖1名,奖金合计20000元
  • 二等奖1名,奖金合计10000元
  • 三等奖2名,奖金合计5000元

赞助情况

本次评测奖金由阿里云赞助,由中国中文信息学会为获奖队伍颁发荣誉证书。

任务网址

https://tianchi.aliyun.com/competition/entrance/532463

有任何问题请与任务组织者或评测主席联系。