中国计算语言学大会(CCL 2021)技术评测任务发布

http://www.cips-cl.org/static/CCL2021/cclEval/taskEvaluation/index.html

“第二十届中国计算语言学大会”(The Twentieth China National Conference on Computational Linguistics, CCL 2021)将于2021年8月13-15日在呼和浩特市举行,会议组织单位为中国中文信息学会计算语言学专业委员会,承办单位为内蒙古大学。

本次大会继续组织中文语言处理技术评测。经过前期评测任务征集,评测委员会已确定5个评测任务:“跨领域句法分析”“中文空间语义理解”“智能医疗对话诊疗”“图文多模态幽默识别”“中译语通-Nihao无监督中文分词”。欢迎广大研究者参与评测竞赛。中国中文信息学会将为在评测中取得优异成绩的队伍提供官方荣誉证书。

一、评测任务

任务1:跨领域句法分析评测

任务简介:

近年来,随着深度学习技术的发展,尤其是预训练语言模型ELMo/BERT的提出,封闭领域规范文本上的句法分析性能已经达到了比较高的水平。但是,在跨领域文本,尤其是不规范的网络文本上,句法分析的性能会急剧下降。同时,如何在深度学习模型中利用结构化的句法信息也是NLP领域的重要研究问题之一,但是受到真实文本上句法性能的限制。因此,领域移植问题已经成为句法分析研究的重要挑战。

为了更充分地支持句法分析领域移植研究,苏州大学自然语言处理组自2017年起标注了多领域句法数据集,并命名为汉语开放依存树库(CODT),目前包含16万句,涵盖10多个领域或来源的文本。本次跨领域句法分析评测,公开发布CODT 2.0数据集,包含7万句,对应6个领域。具体而言,评测任务针对“多源零样本”领域移植场景,分为封闭和开放两个赛道。

评测任务负责人:

负责人:李正华(苏州大学)

联系人:周明月(z641295453@163.com)李帅克(skli20@stu.suda.edu.cn )

总奖金:20000元

任务网址:

http://hlt.suda.edu.cn/index.php/CCL2021

任务2:中文空间语义理解评测

任务简介:

语言交际中存在大量的空间信息,理解这些信息是非常重要的。对文本中空间信息的理解,不仅需要掌握句段中字词的语义,还需要具备一定的常识或世界知识,甚至是超出语言范畴的空间想象等认知能力。考察机器的空间认知能力是一项系统性的工作。作为初步尝试,北京大学与复旦大学的研究团队针对中文文本中空间语义的正误判断与归因,提出了本次评测任务。

如果机器具备了空间认知能力,那么它不仅要能够识别常规、正确的空间信息,还应该能够识别异常、错误的空间信息。这些异常包括:跟空间语义理解有关的词语搭配问题、上下文信息冲突问题、与常识冲突的问题等。为了方便进行不同的后续处理,机器在识别异常的同时,也需要能够对异常的原因加以解释。基于上述观点,本次评测设置了三个任务来考察机器的空间认知能力,分别是:

  • 任务1,中文空间语义正误判断。
  • 任务2,中文空间语义异常归因合理性判断。
  • 任务3,中文空间语义判断与归因联合任务。

评测任务负责人:

主席:詹卫东,穗志方(北京大学);邱锡鹏(复旦大学)

委员:孙春晖,唐乾桐,秦梓巍,董青秀,李卓,张洁(北京大学);李孝男(复旦大学) 等

联系方式:sc_eval@163.com

总奖金:40000元(华为公司赞助)

任务网址:

https://github.com/2030NLP/SpaCE2021

任务3:智能医疗对话诊疗评测

任务简介:

随着“互联网+医疗”的迅速发展,在线问诊平台逐渐兴起,在线问诊是指医生通过对话和患者进行病情的交流、疾病的诊断并且提供相关的医疗建议。在政策和疫情的影响之下,在线问诊需求增长迅速。然而医生资源是稀缺的,由此促使了自动化医疗问诊的发展,以人机对话来辅助问诊过程。本次智能对话诊疗评测设置2个赛道。

赛道一:医患对话理解

医患对话理解主要包括四个任务,分别是命名实体识别、对话意图识别、症状识别以及医疗报告生成。

  • 任务1,命名实体识别,从医患对话文本中识别出七类重要医疗相关实体。
  • 任务2,对话意图识别,识别话语中每句对话所表达的意愿和行为。
  • 任务3,症状识别,根据医患对话历史识别出病人具有的症状。
  • 任务4,医疗报告生成,依据病人主诉和医患对话,输出具有规定格式的医疗报告。

本赛道数据集包括超过2000组医患对话案例样本,覆盖10种儿科疾病,8万余句对话,样本平均对话次数为40次,平均每个样本的对话字数为523个。

赛道二:智能化医疗诊断

就诊过程是一个带有目的的序列化医生-患者交互的过程。智能化医疗诊断是任务型对话系统的重点研究方向。

此次智能化医疗诊断的任务为:面向自动诊疗的对话系统。要求参赛系统根据给出的显性信息(病人主诉中提及的症状、检查),与病人模拟器进行互动以获取更多病人的症状、已做的医疗检查,依据交互内容判断疾病,并给出相应的检查建议。

本赛道数据集超过2000个样本,每个样本包含疾病类别、病人主诉文本、直接信息(病人主诉中明确提及的实体信息,包括症状和检查)、隐藏信息(结合整段医患对话得到的实体及标签,表示患者是否已经有该症状、是否已经做过该检查。)。

评测任务负责人

主办方:复旦大学数据智能与社会计算实验室

主席:魏忠钰(复旦大学),郝建业(天津大学),彭佳杰(西北工业大学)

委员:陈伟(复旦大学),方泓懿(复旦大学),姚倩媛(复旦大学),李志伟(复旦大学),钟诚(复旦大学)

顾问:黄萱菁(复旦大学),何瑜岚(英国华威大学),穗志方(北京大学)

总奖金:52000元

任务网址:

http://www.fudan-disc.com/sharedtask/imcs21/index.html

任务4:图文多模态幽默识别评测

任务简介:

幽默是一种特殊的语言表达方式,在日常生活中扮演着化解尴尬、活跃气氛、促进交流的重要角色。而幽默计算是近年来自然语言处理领域的新兴热点之一,其主要研究如何基于计算机技术对幽默进行识别、分类与生成,具有重要的理论和应用价值。随着互联网和社会媒体的快速发展,幽默作为一种富有想象力和创造性的语言现象,不仅仅出现在文本和对话中,更呈现出多模态表达的趋势。Meme(迷因图,梗图)作为多模态幽默的重要代表,是指通过模仿的方式在人与人之间传播的思想、行为或风格,其目的是传达特定的现象、主题或意义(维基百科)。Meme由图片和对应的文本组成,以图文结合的方式形成幽默效果,其中文本一般是对图片的注释或曲解。本次评测基于Meme数据集进行图文多模态幽默识别,包含两个任务。

  • 任务1,Meme幽默程度比较。此任务要求参赛系统对给定的两个Meme进行幽默程度的比较,从中选出两者中更幽默的Meme。
  • 任务2,Meme幽默等级划分。此任务依据Meme的幽默程度将Meme标注为强幽默、普通幽默和弱幽默三个等级,要求参赛系统对给出的单个Meme进行分析,预测该Meme的幽默等级。

评测任务负责人:

负责人:林鸿飞(大连理工大学)杨亮(大连理工大学)

联系方式:humorcomputing@163.com

总奖金:20000元

任务地址:

http://cips-cl.org/static/CCL2021/cclEval/humorcomputation/index.html

任务5:中译语通-Nihao无监督汉语分词评测

任务简介:

汉语分词是中文自然语言处理任务中的一项预处理技术。现有的汉语分词评测任务提供一定规模的标注集,主要考察有监督的汉语分词模型的优劣。然而,在面对现实文本时,依靠一定规模的训练语料的有监督模型难以应对非训练样本空间的特征分布,分词效果会有明显的下降。由于汉语分词任务涉及到分词标准及词法知识等极其复杂的因素,人工标注目标文本的代价与开销极大。有监督汉语分词的领域自适应性和实用性都面临很大挑战。与有监督汉语分词相比,无监督技术不依靠训练语料,可以很好地应对现实世界文本数据的时效性。

本次评测采用的测试语料是从实际应用任务中获取的开放性文本,约10,000句。分词标准采用评测方拟定的面向信息检索与机器翻译任务的细粒度分词标准。原则上,参赛方不得使用任何已有的标注资源,也不允许自行进行人工标注。评测方会提供此次评测语料的基线模型,及相关资源数据,以供参赛方参考,包括:①一份中文常用词典;②一份前后缀词表;③一份分词标准。此次评测也分为闭测与开测两项子赛道,其中,闭测只允许使用评测方提供的上述三份资源;开测允许使用任意外部资源(但不允许使用已标注分词资源)

评测任务负责人:

负责人:黄德根教授(大连理工大学)

联系人:黄锴宇(大连理工大学)

联系方式:unsupervisedCWS@163.com

总奖金:20000元(中译语通赞助)

任务地址:

http://114.116.55.241/sharedTask-unsupervisedCWS

二、技术评测总体时间安排

  • 任务征集截止:2021年3月10日
  • 评测任务发布:2021年3月31日
  • 总体评测时间:2021年4月1日—2021年7月31日,各评测任务报名、评审等具体安排请关注各个评测任务网站。
  • CCL 2021评测研讨会:2021年8月13日—2021年8月15日

有任何问题请与任务组织者或评测主席联系。

CCL2021评测主席:

林鸿飞,大连理工大学

宋巍,首都师范大学