评测发布


第二十三届中国计算语言学大会(CCL24-Eval)
技术评测任务发布

第二十三届中国计算语言学大会(The 23rd China National Conference on Computational Linguistics, CCL 2024)将于2024年7月25-28日在山西省太原市举行,由中国中文信息学会主办,山西大学承办。

本次大会继续组织中文语言处理技术评测CCL24-Eval。经过前期评测任务征集,CCL24-Eval组织委员会已确定10个评测任务,涵盖了语义分析、古文分析、作文流畅性评价、手语翻译、多模态理解、等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。

算力赞助信息

本次评测任务的算力支持由北京并行科技股份有限公司大力赞助,提供两种显卡配置(二选一), 每队500元免费算力。

配置1:显卡类型为N40-4090-24G,其配置为
CPU:AMD EPYC 7402 (48C)@2.8GHz
内存:512GB
GPU:8*NVIDIA®GeForce®RTX 4090
显存:8*24GB(936.2 GB/s)
节点互联:RoCE 2 * 25Gbps(RDMA协议)
操作系统:CentOS7.9
计费模式:按需4.8元/每卡/每时
向每个参赛队伍免费赠送300G硬盘,如需扩增按2000元/T/年计费。

配置2:显卡类型为N26-V100-32G,其配置为
CPU:Platinum82系列(80vCPU)v6@2.5GHz
内存:320GB
GPU:8*NVIDIA®Tesla®V100 SXM2
显存:8*32GB(897 GB/s)
NVLink:双向通信300 GB/s
操作系统:CentOS7.8
计费模式:按需5.3元/每卡/每时
向每个参赛队伍免费赠送300G硬盘,如需扩增按58元/G/月计费。

感谢北京并行科技股份有限公司大力赞助,欢迎各界优秀团队踊跃报名参赛!

注意事项:
1.参赛队伍需以老师名义注册。
2.每个队伍账号数据保存一年时间。
3.每个参赛队伍账号提供500元金额免费算力,超出费用会被限制。
4.默认开通4090集群,若需V100或其他资源,另行协商。
5.账号默认8卡权限,需额外权限另行协商。
6.账号需提供以下几点信息:1.姓名和电话 2.所在学校和院系 3.发账号邮箱

评测任务

任务1:第二届汉语框架语义解析评测

任务简介

框架语义解析(Frame Semantic Parsing,FSP)是基于框架语义学的细粒度语义分析任务,其目标是从句中提取框架语义结构,实现对句子中事件或情境的深层理解。框架语义解析对阅读理解、文本摘要、关系抽取等下游任务具有重要意义。

在自然语言中,大部分情况下以词为单位传达含义,但也存在很多词汇意义聚合现象,即组成的短语出现了新的含义。如:“爱买不买”,整个短语表示说话者对另一方是否要购买某物不在乎或不感兴趣。在框架语义分析中,该短语应该作为一个整体激活“情感反应”框架。如果以“爱”、“买”等单个动词作为目标词,激活喜欢、购买等框架,则无法捕捉到其独特的情感色彩。

构式语法主张语言是由固定的、有意义的单位组成,这些单位被称为构式,既可以是简单的词或短语,也可以是复杂的句子或话语。如,“爱买不买”对应的构式是“爱V不V”,该构式是一个表达语义的整体,表示对某行为不在意或无所谓,应该整体作为目标词激起相应的框架。

为了提升框架语义解析能力,进一步实现对语言的深度理解,我们增加了以构式为“目标词”的框架语义解析数据,推出了第二届汉语框架语义解析评测。

本次评测包括以下三个子任务:

  • 框架识别(Frame Identification):识别句子中给定目标词或构式激活的框架。
  • 论元范围识别(Argument Identification):识别句子中给定目标词或构式所支配论元的边界范围。
  • 论元角色识别(Role Identification):预测论元范围识别任务中论元的语义角色标签。

本次评测设置了开放和封闭两个赛道,其中开放赛道的参赛队伍可以使用ChatGPT等大模型进行推理,但禁止对其进行微调,且需提交所使用的提示模板;封闭赛道中,参赛模型的参数量将会被限制。

组织者和联系人

  • 评测组织者:李茹、谭红叶(山西大学);常宝宝(北京大学);戴新宇(南京大学)
  • 任务负责人:闫智超(山西大学博士生,202312407023@email.sxu.edu.cn)
  • 任务联系人:李俊材(山西大学博士生,202312407010@email.sxu.edu.cn)

任务奖项

本次评测分别为每个赛道评选出如下奖项:

  • 一等奖0-2名,奖品合计笔记本电脑2台;
  • 二等奖0-2名,奖金合计2400元;
  • 三等奖0-2名,奖金合计1600元。

赞助情况

  • 笔记本电脑由百信信息技术有限公司提供赞助;
  • 评测奖金由思腾合力(天津)科技有限公司高教负责人宋肖敏和太原市杰辉科技共同赞助。

任务网址

https://github.com/SXUCFN/The-2nd-Chinese-Frame-Semantic-Parsing

任务2:中文意合图语义解析评测

任务简介

意合图(Chinese Parataxis Graph)是以事件为中心的语义表征图,为单根有向图,图中的节点对应承载事件、实体、属性的单元,边为有向边,表示单元间的语义关系。

意合图在符合人类对语言认知的基础上,充分考虑落地应用的可操作性,使其尽可能地层次化,以便于后续语义分析路径的设计,实现通用性与扩展性兼具的语义表征方案。按照层次可以将意合图层层分解为多个子部分。意合图由事件结构与实体结构两部分构成:

事件结构分为事件内结构与事件外结构,事件内结构可进一步分为以事件词为核心的论元结构、情态结构、时空结构,事件外结构为多个事件构成的关系事件结构;

实体结构分为实体内结构与实体外结构,实体内结构即实体属性与属性值结构,实体外结构即多个实体构成的实体关系事件结构。

2024中文意合图语义解析评测任务仅要求生成句子级意合图框架即可,即输入单元为句子,输出为意合图框架结构,无需生成细化实体结构、情态结构、时空结构等的内部语义分类,仅判断是否属于该结构成分即可,所提供的语料也为粗粒度标签。

例如,在句子“他哭肿了眼睛”中,需要自动解析出如下三元组集合:

{(他,哭,A0), (眼睛,肿,A0), (他,眼睛,EntityRel), (了,哭,Time), (了,肿,Time), (哭,因果关系,原因事件), (肿,因果关系,结果事件), (哭,ROOT,CoreWord)}

本次评测所提供的数据集来源于经人工标注的国际中文教育阅读文本与宾州树库语料,评测为开放式测试,允许使用外部资源。

组织者和联系人

  • 评测组织者:荀恩东(北京语言大学语言资源高精尖中心)、饶高琦(北京语言大学国际中文研究院)、唐共波(北京语言大学信息科学学院)
  • 任务联系人:郭梦溪(北京语言大学硕士生,guo_mengxi@foxmail.com)、李梦(北京语言大学博士生)

任务奖项

本届评测将设置一、二、三等奖,提供总额为7000元的奖金

任务网址

https://github.com/gertrude95/Chinese-Parataxis-Graph-Parsing

任务3:第四届中文空间语义理解评测(SpaCE 2024)

The Fourth Chinese Spatial Cognition Evaluation

任务简介

空间表达描述了物体之间的空间方位关系,是自然语言中的高频现象。要准确理解文本中空间表达的语义,不仅需要语言知识,还需要调用空间认知能力,构建空间场景,并基于世界知识进行空间方位信息相关的推理。

中文空间语义理解评测(Spatial Cognition Evaluation,简称 SpaCE)以测试机器的中文空间语义理解水平为目标,自 2021 年开始连续举办了三届赛事。现有评测结果显示,机器的中文空间语义理解水平与普通人类平均水平相比,在对空间认知加工要求较高的任务上,存在较大差距。空间语义理解对包括大语言模型在内的 NLP 系统来说,仍然是一项极具挑战性的任务。

为了继续提升机器的空间语义理解能力,我们推出了第四届中文空间语义理解评测(SpaCE2024)。相较于前三届赛事,本届评测更加注重针对大语言模型的空间语义理解能力的测试,宗旨是在一个测试数据集上考察机器中文空间语义理解的综合能力。

为此,SpaCE2024 将不再划分任务赛道,以选择题的形式考察以下五个层次的空间语义理解能力:

  • 空间信息异常识别:选择文本空间信息异常的语言表达。
  • 空间信息实体识别:选择文本空间信息的参照物或目标物。
  • 空间信息角色识别:选择文本空间信息的语义角色,或者选出与所给语义角色相对应的空间表达形式。
  • 空间方位信息推理:基于空间知识进行推理,选择推理结果。
  • 空间形义关系判别:选择构成两个文本异形同义或异义的空间义词语。

组织者和联系人

  • 评测组织者:詹卫东、穗志方(北京大学)
  • 任务联系人:肖力铭(北京大学博士生,lmxiao@stu.pku.edu.cn)

任务奖项

  • 一等奖0-1名,奖金合计12000元;
  • 二等奖0-2名,奖金合计12000元;
  • 三等奖0-4名,奖金合计12000元。

赞助情况

本次评测奖金由华为公司赞助。

任务网址

https://2030nlp.github.io/SpaCE2024

任务4:第四届中文抽象语义表示解析评测(CAMRP 2024)

The Fourth Chinese Abstract Meaning Representation Parsing Evaluation

任务简介

抽象语义表示(Abstract Meaning Representation,AMR)是近年来兴起的一种语义表示方法,能够将句子的语义结构抽象为一个单根有向无环图。

中文抽象语义表示(Chinese Abstract Meaning Representation,CAMR)结合汉语的语言特点,在AMR基础架构上进行了改进,在保留AMR较强的整句语义表示能力的同时,主要新增了概念对齐和关系对齐的标注。本次CAMRP 2024评测的任务是对古代汉语句子进行解析,输出包含概念对齐信息和关系对齐信息的CAMR语义图,并按Align-smatch评测指标下的F1值进行成绩排名。相比往届,本次评测新增2500句古代汉语语料作为验证集和测试集,重点评价参赛模型的古汉语AMR解析性能;同时沿用往届的训练集,包含16576句现代汉语,以观察解析系统在古代汉语上的迁移学习能力。

组织者和联系人

  • 评测组织者:李斌、冯敏萱、曲维光、周俊生(南京师范大学)
  • 任务联系人:许智星(南京师范大学博士生,xzx0828@live.com)

任务奖项

本届评测将设置一、二、三等奖,提供总额为7000元的奖金

任务网址

https://github.com/GoThereGit/Chinese-AMR/

任务5:古文历史事件类型抽取评测

任务简介

事件抽取是从自然语言文本中识别和提取相关事件信息的过程。由于古文句法、语义复杂,使用范围小,针对古代汉语的信息抽取任务仍然面临着较大挑战。我们构建了一个具有层级逻辑性的古文事件类型体系,一共包含9大类、67小类,然后基于古文事件类型体系和《二十四史》语料构建了中国古文历史事件检测数据集(A Cross-Historical Dataset with a Logical Event Schema for Classical Chinese Event Detection,CHED),共标注了8122个有效事件实例(包含触发词和事件类型)。任务旨在评估古文历史事件检测的算法性能,包括两个子任务:

  • 子任务一:触发词识别(Trigger Identification)
  • 此任务需要识别文本中的事件触发词并标记它们的位置。触发词以单音节词为主,选择最能代表事件发生的词语,一般为句中的谓语动词(其他句子成分皆可)。

  • 子任务二:事件类型判别(Event Type Classification)
  • 此任务需要参考我们构建的事件类型体系(见任务网址),为每个触发词确定其所代表的事件类型。

    举例来说,在句子“进军建德,擒贼帅赵桑干。”中,“进军”这个词可以表示“派兵到建德”这个事件,“擒”这个词可以表示“抓住敌方的将领赵桑干”这个事件。因此在这个句子中,触发词是“进军”和“擒”,分别代表“军事-备战-出兵”和“军事-作战-俘虏”这两个事件类型。

组织者和联系人

  • 评测组织者:邵艳秋、李炜(北京语言大学)
  • 任务联系人:冯振冰(北京语言大学硕士生,blcu_lcclab@163.com)

任务网址

https://github.com/NLPInBLCU/CHED2024

任务6:中小学作文修辞识别与理解评测

Chinese Essay Rhetoric Recognition and Understanding

任务简介

在中小学生的学习过程中,修辞手法不仅是阅读理解和写作技巧的核心组成部分,同时也是塑造优秀文学作品的不可或缺的元素。识别并理解学生作文中的修辞使用,可以帮助学生提高作文表达能力,指导学生更高质量的叙述和描写。但是这需要大量的人工成本,对教师在作文评估和教学方面提出了挑战。随着教育的发展和网络的普及,许多研究者和机构开始探索利用计算机技术来实现作文的自动评改,其中修辞手法的使用是教师评改作文的重要组成部分。

本次评测围绕“中小学作文修辞理解”任务,将修辞手法分为比喻、比拟、夸张和排比,进一步对这4种修辞手法进行细粒度分类,并给出每种修辞描写的对象和内容,包括:

  • 中小学作文修辞形式类型识别
  • 中小学作文修辞内容类型识别
  • 中小学作文修辞成分抽取

共3个赛道,为中小学作文修辞理解提供更多依据。

组织者和联系人

  • 评测组织者:刘诺纬,陈心豪,任育培,兰曼,柏晓鹏,吴苑斌(华东师范大学),毛绍光,夏炎(微软亚洲研究院)
  • 任务联系人:刘诺纬(华东师范大学,nwliu@stu.ecnu.edu.cn)

任务奖项

任务主办方将为获奖队伍提供1万元奖金。

任务网址

https://github.com/cubenlp/CERRU

任务7:第二届中小学作文流畅性评价

Chinese Essay Fluency Evaluation

任务简介

中小学生作文流畅性评价(Chinese Essay Fluency Evaluation, CEFE)任务旨在对作文中出现的影响流畅性的错误进行识别和纠正。目前的工作通常将作文流畅性评价作为单独的自然语言处理任务,缺乏多层次、多角度的系统性整合。区别于基于规则生成的数据或基于汉语学习者的中介语数据中的错误,以及其他类型母语者的口语、书面语的语法错误,中小学生作文中出现的错误类型更丰富,涉及的语法知识更复杂。因此我们从词法、句法、语义等角度系统地定义了影响中小学作文流畅性的细粒度错误类型,并提供修正建议。与去年相比,为进一步全面地对作文的流畅程度进行评估,本次评测任务新增作文流畅性评级任务,并在训练集中新增1200条句子。本次评测任务设计了以下3个赛道:

  • 中小学作文病句类型识别:识别作文中不同类型的病句;
  • 中小学作文病句重写:重写作文中的病句使其成为正确句子;
  • 中小学作文流畅性评级:评估作文在流畅性方面的等级。

组织者和联系人

  • 评测组织者:庄薪霖、沈新舒、伍洪意、任育培、柏晓鹏、兰曼、吴苑斌(华东师范大学),毛绍光、夏炎、葛涛(微软亚洲研究院)
  • 任务联系人:庄薪霖(华东师范大学,zhuangxinlin2022@163.com)

任务奖项

任务主办方将为获奖队伍提供1万元奖金。

任务网址

https://github.com/cubenlp/2024CCL_CEFE

任务8:儿童故事常识推理与寓意理解评测

任务简介

儿童故事常识推理与寓意理解评测(Evaluation on Commonsense Reasoning and Moral Understanding in Children's Stories,CRMU)任务旨在从常识推理(Commonsense Reasoning)和寓意理解(Moral Understanding)两个任务多角度评价中文预训练语言模型和大型语言模型的常识推理和故事理解能力。本评测包含以下2个子任务:

  • 常识推理(Commonsense Reasoning):基于给定的故事和常识问题,选择正确的候选答案。
  • 寓意匹配(Moral Matching):基于给定的故事,从多个候选中选择最恰当的故事寓意。

本评测使用的数据来源于网页收集的经典寓言故事。常识推理任务的问题和选项由人工标注,涉及到的常识类型包含时间常识、空间常识、生物常识、物理常识以及社会常识。寓意匹配任务的问题和选项采用人工标注和自动生成结合的方式给出。

组织者和联系人

评测组织者:谭红叶、李茹、张虎(山西大学);俞奎(合肥工业大学)

任务负责人:郭亚鑫(山西大学博士生,202112407002@email.sxu.edu.cn)

任务联系人:闫国航(山西大学硕士,yanguohang@qq.com)

任务网址

https://github.com/SXU-YaxinGuo/CRMU

任务9:中文图文多模态理解评测

任务简介

中文图文多模态理解评测(Chinese Vision-Language Understanding Evaluation,CVLUE)任务旨在从图文检索(Image-Text Retrieval)、视觉问答(Visual Question Answering)、视觉定位(Visual Grounding)和视觉对话(Visual Dialog)等四个任务多角度评价中文图文多模态预训练模型的图文多模态建模和理解能力。该任务包含以下5个子任务:

  • 图片检索(Image Retrieval):基于给定的文本描述从若干候选中检索出对应图片。
  • 文本检索(Text Retrieval):基于给定的图片从若干候选中检索出对应的文本描述。
  • 视觉问答(Visual Question Answering):基于给定的图片用短语回答问题。
  • 视觉定位(Visual Grounding):基于给定的图片和文本描述找出图片中对应的实体。
  • 视觉对话(Visual Dialog):基于给定的图片和对话历史从若干候选中选出最合适的回复文本。

组织者和联系人

  • 评测组织者:万志国、王宇轩(之江实验室);车万翔(哈尔滨工业大学)
  • 任务联系人:刘议骏(哈尔滨工业大学,yijunliu@ir.hit.edu.cn)

任务网址

https://github.com/WangYuxuan93/CVLUE

任务10:手语数字人翻译质量评测

任务简介

随着科技的进步,手语数字人(Sign Language Avatars)已经成为促进聋人群体与社会沟通的重要工具。手语数字人通过模拟手语动作,为聋人提供实时的翻译服务,有助于打破语言障碍,提升聋人群体的社会参与度。为了确保手语数字人能够提供准确、自然且易于理解的手语翻译,对其翻译质量进行评测至关重要。本次评测旨在评测手语数字人将汉语翻译成中国手语方面的自然性和准确性,确保手语数字人能够符合手语语法规则,并且能够被聋人群体所理解和接受。

本次评测由中国聋人协会手语研究与推广委员会业务指导,由评测团队对手语数字人的翻译结果进行人工评测,该评测团队由聋人和专业手语翻译人员组成,均通过中国聋人协会手语研究与推广委员会认证。评测将以手语语法的准确性、表达的自然性和可读性以及是否满足聋人理解为主要标准,综合考虑手势清晰度、流畅性、与汉语原文的语义一致性等。具体包括以下四个评测标准:

  • 手语语法准确性:手语数字人是否遵循中国手语的词序规则,手势的准确性,以及语法标记在翻译中是否得到正确表达。
  • 自然性:评估手势的连贯性、翻译是否符合聋人群体的日常表达习惯,以及面部表情、身体姿态和空间布局等非言语元素是否自然地融入翻译中。
  • 可读性:评估手语数字人在清晰度、一致性和适应性方面的表现。
  • 文化适应性:翻译时是否考虑了文化差异、社会语境的适应性,以及是否能够准确传达原文的情感色彩。

组织者和联系人

  • 评测组织者:姚登峰(北京联合大学/清华大学,tjtdengfeng@buu.edu.cn)、仰国维(河南财经政法大学/中国聋人协会手语研究与推广委员会)、金澎(乐山师范学院特殊教育语言智能四川省哲学社会科学重点实验室)、陈毅东(厦门大学)、徐聪(中国聋人协会手语研究与推广委员会/华夏出版社国家通用手语数字推广中心)、王海旭(青海广播电视台/中国盲文手语研究应用中心)、陈斌(株洲手之声信息科技有限公司)、吴力权(深圳市信息无障碍研究会)、沈刚(中国聋人协会手语研究与推广委员会)、陈华铭(中国聋人协会手语研究与推广委员会)、刘春达(北京手语研究会)、丁艳丽(北京联合大学国家语言文字推广基地)、胡可(北京联合大学)、陈澜(深圳市联谛信息无障碍有限责任公司)、袁甜甜(天津理工大学)
  • 任务联系人:赵源(北京联合大学硕士生,1398396428@qq.com)

任务网址

https://github.com/ann-yuan/QESLAT-2024

技术评测总体时间安排

  • 任务征集截止时间:2024年1月31日
  • 任务线上发布时间:2024年2月4日
  • 整体评测结束时间:2024年5月31日
    • 任务组织者要在此截止时间前确定并公布参赛队伍的成绩和排名
  • 提交中文或英文技术报告:2024年5月31日
    • 供任务组织者了解参赛队伍的方法,同时技术报告也作为评奖的考虑因素之一,不提交技术报告,不能获奖
  • 中文或英文技术报告反馈:2024年6月5日
    • 任务组织者初评技术报告,并给出反馈
  • 正式提交中英文评测论文:2024年6月10日
    • 包括任务组织者撰写的Overview论文、任务组织者推荐的优秀中英文技术报告(提交前请根据任务组织者的建议完善),进入双盲评审
  • 公布获奖名单:2024年6月15日
  • 评测论文录用通知:2024年6月25日(技术报告是评奖重要考量,但未必会被录用)
  • 论文Camera Ready提交:2024年7月1日
    • 录用后的论文将进入ACL/CCL Anthology
  • CCL 2024评测研讨会:2024年7月25-28日
    • 任务组织者做Overview报告、颁奖、主持Session,获奖队伍做技术报告

有任何问题请与任务组织者或评测主席联系。

CCL 2024评测主席:

林鸿飞,大连理工大学

李斌,南京师范大学

谭红叶,山西大学

2024年2月5日