评测发布


第二十二届中国计算语言学大会(CCL 2023)
技术评测任务发布

“第二十二届中国计算语言学大会”(The 22nd China National Conference on Computational Linguistics, CCL 2023)将于2023年8月3-5日在黑龙江省哈尔滨市举行。会议主办单位为中国中文信息学会。

本次大会继续组织中文语言处理技术评测。经过前期评测任务征集,CCL23-Eval组织委员会已确定10个评测任务,涵盖了古籍命名实体识别、语义分析、省略消解、案件分类、文本纠错、作文流畅性评价、阅读理解鲁棒性评价、多模态对话8大重要研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。

一、评测任务

任务1:古籍命名实体识别评测(GuNER 2023)

Named Entity Recognition for Ancient Chinese Literature

任务简介

古籍文献中的命名实体识别是正确分析处理古汉语文本的基础,也是深度挖掘和组织人文知识的重要前提。中华文明源远流长,不同朝代和领域的古籍文献在词汇和句法等语言特征上亦有差异。基于“二十四史”,我们设计了涵盖人名、地名、官职名的实体知识体系,建构了覆盖多个朝代的历时、跨领域的数据资源,并通过统一评测平台举办了本次评测,以期完善古籍命名实体识别任务的建立,推动技术的突破和发展,助力古籍资源的智能开发与利用。本次评测包含三个子任务:

  • 古籍文本人名识别;
  • 古籍文本地名识别;
  • 古籍文本官职名识别。

组织者和联系人

评测组织者:苏祺、杨浩、王军(北京大学)

任务联系人:王莹莹(北京语言大学博士生,ying_y_wang@126.com)

任务奖项

主办方会为获奖队伍提供总额为20000元的奖金。

任务网址

https://guner2023.pkudh.org/

任务2:第三届中文抽象语义表示解析评测(CAMRP 2023)

The Third Chinese Abstract Meaning Representation Parsing Evaluation

任务简介

抽象语义表示(Abstract Meaning Representation,AMR)是近年来兴起的一种语义表示方法,能够将句子的语义结构抽象为一个单根有向无环图。中文抽象语义表示(Chinese Abstract Meaning Representation,CAMR)结合汉语的语言特点,在AMR基础架构上进行了改进,在保留AMR较强的整句语义表示能力的同时,主要新增了概念对齐和关系对齐的标注。本次CAMRP 2023评测的任务是对汉语句子进行解析,输出包含概念对齐信息和关系对齐信息的CAMR语义图,并按Align-smatch评测指标下的F值进行成绩排名。相比上届CAMRP 2022,本次评测额外新增2000句问句语料作为盲测集,以考察解析模型对汉语的问句焦点和一句多问的分析能力。

组织者和联系人

评测组织者:李斌、曲维光、周俊生(南京师范大学);薛念文(美国布兰迪斯大学)

任务联系人:许智星(南京师范大学硕士生,xzx0828@live.com)

任务奖项

小牛公司会为本次获奖队伍提供总价值10000元的奖金。

任务网址

https://github.com/GoThereGit/Chinese-AMR/

任务3:汉语框架语义解析评测

Chinese Frame Semantic Parsing

任务简介

框架语义学(Frame Semantics)是基于认知机理的语言学理论,其核心思想是通过基于认知的图式化场景来描述语言的意义,即语义框架。框架语义解析(Frame Semantic Parsing,FSP)是自然语言处理领域中的一项重要任务,其目标是从句中提取框架语义结构,实现对句子中涉及到的事件或情境的深层理解。FSP在阅读理解、文本摘要、关系抽取等下游任务有着重要意义。目前对于FSP的研究有以下方法:多任务的pipeline策略、多种联合学习模型和基于框架知识建模方法等。汉语框架语义解析(Chinese FSP,CFSP)是基于汉语框架语义资源的语义解析任务,该任务分为以下三个子任务:

  • 框架识别(Frame Identification):识别句子中给定目标词激活的框架。
  • 论元范围识别(Argument Identification):识别句子中给定目标词所支配论元的边界范围。
  • 论元角色识别(Role Classification):预测子任务2所识别论元的语义角色标签。

组织者和联系人

评测组织者:李茹、谭红叶(山西大学);常宝宝(北京大学);戴新宇(南京大学)

任务联系人:闫智超(山西大学硕士生,202022408073@email.sxu.edu.cn);李俊材(山西大学硕士生,202122407024@email.sxu.edu.cn)

任务网址

https://github.com/SXUNLP/Chinese-Frame-Semantic-Parsing

任务4:第三届中文空间语义理解评测(SpaCE 2023)

The Third Chinese Spatial Cognition Evaluation

任务简介

空间范畴是人类认知中重要的基础范畴。理解文本中的空间信息不仅需要掌握词汇、句法语义知识,还需要用到常识或背景知识,调动认知能力来构建空间场景。空间语义理解在自然语言处理领域受到了广泛关注,导航、文景转换等应用都要求机器能够理解自然语言中的空间信息。具备空间语义理解能力的机器应该能够判断空间信息的正常或异常与否,并且有能力提取结构化的空间信息,区分不同文本的空间场景异同。为了评测机器的空间语义理解能力,推进空间范畴的认知计算建模研究,我们于2021年开始连续两年举办了中文空间语义理解评测任务(Spatial Cognition Evaluation,简称 SpaCE)。今年,我们继续推出第三届中文空间语义理解评测(SpaCE2023),包含如下3个子任务:

  • 空间语义异常识别:识别给定中文文本中空间语义信息异常的文本片段。
  • 空间语义角色标注:基于给定的空间关系标注规范,对给定中文文本进行空间实体的识别与空间方位关系标注。
  • 空间场景异同判断:阅读两个在形式上相似且都包含空间场景信息描述的中文文本,对它们是否可以描述相同的空间场景进行判断,并说明判断的理由。

组织者和联系人

评测组织者:詹卫东、穗志方(北京大学)

任务联系人:肖力铭(北京大学博士生,lmxiao@stu.pku.edu.cn)

任务网址

https://2030nlp.github.io/SpaCE2023/

任务5:跨领域句子级别中文省略消解评测(MCER 2023)

Multi-domain Sentence-level Chinese Ellipsis Resolution

任务简介

省略是一种十分常见的语言现象,在中文领域尤为普遍。对于人类而言,自然语言中存在的省略现象并不影响语义理解;但是,对于机器而言,这一现象却是语义理解类自然语言处理任务面临的挑战之一,省略现象的存在一定程度上影响着机器阅读理解、机器翻译等下游任务的准确性。然而,中文自然语言处理领域关于省略的研究十分稀少,且语言学领域并没有被广泛认可的关于“省略”的定义。因此,我们推出针对中文自然语言处理的省略定义,并依托CCL2023推出跨领域句子级别中文省略消解评测任务,希望能够引发更多对于“省略”这一语言现象的关注。本次评测分为如下2个子任务:

  • 省略位置探测:探测省略句中省略现象出现的位置。
  • 省略内容补全:从当前句子中找到可以补全当前省略的内容。

组织者和联系人

评测组织者:邵艳秋、李炜(北京语言大学)

任务联系人:祁佳璐(北京语言大学硕士生,blcu_lcclab@163.com)

任务奖项

云孚科技(北京)有限公司会为本次获奖队伍提供总价值10000元的奖金。

任务网址

https://github.com/lcclab-blcu/MCER2023

任务6:电信网络诈骗案件分类(FCC)

Telecom Network Fraud Case Classification

任务简介

文本分类是自然语言处理领域的基础任务,面向电信网络诈骗领域的案件分类对智能化案件分析具有重要意义。诈骗案件分类是打击电信网路诈骗犯罪过程中的关键一环,根据不同的诈骗方式、手法对案件进行分类,有助于公安部门掌握当前电信网络诈骗案件的分布特点,进而能够对不同类别的诈骗案件作出针对性的预防、监管、制止、侦查等措施。本评测的任务是将给定的案件描述文本进行分类。案件文本包含对案件的整体描述(经过脱敏处理),案件对应的类别共有12类。

组织者和联系人

评测组织者:刘秉权、孙承杰(哈尔滨工业大学)

任务联系人:纪杰(哈尔滨工业大学硕士生,jijie@insun.hit.edu.cn)

任务网址

https://github.com/GJSeason/CCL2023-FCC

任务7:汉语学习者文本纠错(CLTC)

Chinese Learner Text Correction

任务简介

汉语学习者文本纠错(Chinese Learner Text Correction, CLTC) 任务旨在自动检测并修改汉语学习者文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。为了推动汉语学习者文本纠错研究的发展、探索大模型在文本纠错任务中的应用潜力,我们在本次评测中特别设置了开放任务,参赛队伍可以使用大模型实现更好的纠错效果。本次评测有以下两个赛道,分别下设开放任务和封闭任务,因此共四个榜单:

  • 多维度汉语学习者文本纠错(Multidimensional Chinese Learner Text Correction):检测并修改句子中的语法错误,并按照不同维度的参考答案分别进行评价;
  • 中文语法错误检测(Chinese Grammatical Error Diagnosis):检测出中文文本中每一处语法错误的位置、类型。

组织者和联系人

评测组织者:杨麟儿、杨尔弘(北京语言大学);孙茂松(清华大学);刘正皓(东北大学);胡韧奋(北京师范大学);饶高琦(北京语言大学)

任务联系人:常鸿翔(北京语言大学硕士生,blcuicall@163.com); 刘洋、徐萌(北京语言大学硕士生);周天硕(东北大学硕士生);莫凯洁、王予沛(北京师范大学硕士生)

任务网址

https://github.com/blcuicall/CCL2023-CLTC

任务8:中小学作文流畅性评价

Chinese Essay Fluency Evaluation

任务简介

中小学生作文流畅性评价(Chinese Essay Fluency Evaluation, CEFE)任务旨在对作文中出现的影响流畅性的错误进行识别和纠正。目前的工作通常将作文流畅性评价作为单独的自然语言处理任务,缺乏多层次、多角度的系统性整合。区别于基于规则生成的数据或基于汉语学习者的中介语数据中的错误,以及其他类型母语者的口语、书面语的语法错误,中小学生作文中出现的错误类型更丰富,涉及的语法知识更复杂。因此我们从词法、句法、语义等角度系统地定义了影响中小学作文流畅性的细粒度错误类型,并提供修正建议。本次评测任务共包括3个赛道:

  • 中小学作文病句类型识别:识别作文中不同类型的病句;
  • 中小学作文字符级错误识别与纠正:识别作文中出现的字符级错误并纠正;
  • 中小学作文病句重写:重写作文中的病句使其成为正确句子。

组织者和联系人

评测组织者:沈新舒,伍洪意,柏晓鹏,兰曼,吴苑斌(华东师范大学);毛绍光,葛涛,夏炎(微软亚洲研究院)

任务联系人:沈新舒(华东师范大学硕士生,shenxinshu11@163.com)

任务奖项

主办方会为获奖队伍提供总额5000元的奖金。

任务网址

https://github.com/cubenlp/2023CCL_CEFE

任务9:汉语高考阅读理解对抗鲁棒评测

Adversarial Robustness Evaluation for Chinese Gaokao Reading Comprehension

任务简介

机器阅读理解模型的鲁棒性是衡量该技术能否在实际应用中大规模落地的关键。随着技术的进步,现有模型已经能够在封闭测试集上取得较好的性能,但在面向开放、动态、真实环境下的推理与决策时,其鲁棒性仍表现不佳。为了提升机器阅读理解模型在对抗环境下的鲁棒性,我们基于高考语文阅读理解可解释数据集GCRC构建了对抗鲁棒子集GCRC_advRobust,重点挑战模型在关键词扰动、推理逻辑扰动、时空属性扰动、因果关系扰动四种对抗攻击下的鲁棒性。具体来说,参赛者需要输出原始题目及其对抗题目的答案。评测设置了开放和封闭两个赛道,其中开放赛道中,参赛队伍可以使用ChatGPT等大模型;封闭赛道中,参赛模型的参数量被限制。

组织者和联系人

评测组织者:谭红叶、李茹、张虎(山西大学);俞奎(合肥工业大学)

任务联系人:郭亚鑫(山西大学博士生,202112407002@email.sxu.edu.cn);孙欣伊(山西大学博士生);闫国航(山西大学硕士生)

任务网址

https://github.com/SXU-YaxinGuo/GCRC_advRobust

任务10:基于视频的多模态闲聊

Video-based Multi-modal Chitchat

任务简介

基于视频的多模态闲聊任务旨在根据视频片段和对话上下文的信息对对话历史生成回复。为了推动将多模态信息引入人机对话的研究,我们构建了基于视频的对话数据集TikTalk,将社交平台的视频和对应的用户评论-回复处理为基于视频的闲聊对话语料用于本次任务。模型需要将视频和对话上下文作为输入,并生成相应多模态场景下的回复。与纯文本对话任务相比,需要考虑额外的多模态信息的处理,以及研究不同模态的信息之间的如何更好地交互和融合,以产生合理的、令人满意的回复。

组织者和联系人

评测组织者:宋睿华(中国人民大学);傅建龙、刘蓓(微软亚洲研究院);俞舟、Mingyang Zhou(哥伦比亚大学);罗杰波(罗彻斯特大学)

任务联系人:林宏鹏(中国人民大学硕士生,hopelin@ruc.edu.cn)

任务网址

https://github.com/RUC-AIMind/2023CCL-VideoMMD

二、技术评测总体时间安排

  • 任务征集截止:2023年3月31日
  • 整体评测结束时间:2023年6月15日
    • 任务组织者要在此截止时间前确定并公布参赛队伍的成绩和排名
  • 提交中文或英文技术报告:2023年6月25日
    • 供任务组织者了解参赛队伍的方法;同时技术报告也可作为评奖的考虑因素之一;不提交合格的技术报告,不能获奖
  • 中文或英文技术报告反馈:2023年6月28日
    • 任务组织者初评技术报告,并给出反馈
  • 正式提交中英文评测论文:2023年7月3日
    • 包括任务组织者撰写的Overview论文、任务组织者推荐的优秀中英文技术报告(提交前请根据任务组织者的建议完善);进入双盲评审
  • 公布获奖名单:2023年7月7日
  • 评测论文录用通知:2023年7月10日
  • 论文Camera Ready提交:2023年7月15日
    • 录用后的论文将进入ACL/CCL Anthology
  • CCL 2023评测研讨会:2023年8月3-5日
    • 任务组织者做Overview报告、颁奖、主持Session;获奖队伍做技术报告

有任何问题请与任务组织者或评测主席联系。

CCL2023评测主席:

林鸿飞,大连理工大学

李正华,苏州大学

李斌,南京师范大学