跨领域句法分析评测
一、任务介绍
近年来,随着深度学习技术的发展,尤其是预训练语言模型ELMo/BERT的提出,封闭领域规范文本上的句法分析性能已经达到了比较高的水平。但是,在跨领域文本,尤其是不规范的网络文本上,句法分析的性能会急剧下降。同时,如何在深度学习模型中利用结构化的句法信息也是NLP领域的重要研究问题之一,但是受到真实文本上句法性能的限制。因此,领域移植问题已经成为句法分析研究的重要挑战。
为了更充分地支持句法分析领域移植研究,苏州大学自然语言处理组自2017年起标注了多领域句法数据集,并命名为汉语开放依存树库(CODT),目前包含16万句,涵盖10多个领域或来源的文本。本次跨领域句法分析评测,公开发布CODT 2.0数据集,包含7万句,对应6个领域。具体而言,评测任务针对“多源零样本”领域移植场景,分为封闭和开放两个赛道。
- 多源的含义:可以使用其他领域的训练数据作为源领域数据。例如,当目标领域为ZX时,可以使用其他五个领域(包括BC)的训练数据,即BC/PB/PC/FIN/LEG-Train。
- 零样本的含义:不能使用对应领域的训练数据。例如,当目标领域为ZX时,那么ZX-Train不可作为训练数据使用。
封闭赛道的要求
- 只能使用我们提供的数据和信息,包括:所有数据我们都提供分词、自动词性;我们会提供pre-trained word embedding (在Chinese Gigaword 3和所有领域Train/Unlabeled数据上训练word2vec得到)。
- 不可以使用其他开源工具得到新的信息,如词性、词义等特征。
- 不可以使用其他的资源,如词典、句法语义树库等。
- 不可以使用大规模无标注数据上训练的预训练语言模型(任何开源的通用语言模型),但是可以通过预训练语言模型的技术来使用我们提供的无标注数据。即可以使用在我们提供的有标注和无标注数据上从头开始训练预训练模型。
- 不可以使用NLPCC-2019 CODT1.0的数据。
开放赛道的要求
- 可以使用任何可通过某种公开方式获取(包括购买)的数据、资源或工具。但是建议参赛者在系统报告中明确说明使用的外部资源以及这些外部资源对性能的影响。
注意事项
- 开发集的使用:不允许将Dev加入到训练数据中。Dev数据只可以用来调参和选择模型
- 无标注数据(Unlabeled)的使用:不限制。同时,6个领域的Train中的句子,只要不使用句法标注信息,也都可以作为无标注数据使用。
- 预训练语言模型微调:我们将Google发布的bert-base-chinese在所有无标注数据(6个领域的Train,5个领域的Unlabeled数据)进行多轮微调(3轮或10轮),即继续使用语言模型损失函数继续训练。这个模型仅限于Open赛道上的系统使用。我们做这个事情的目的是方便大家试试这个方向,避免大家浪费资源,重复训练。
二、数据介绍
在本次评测任务中,我们提供约29K句平衡语料(BC)、9K句产品博客(PB)、10K句产品评论(PC)、8K句财经资讯(FIN)、8K句法律资讯(LEG)和3K句网络小说(ZX)六个领域的数据。其中BC作为基础数据,只作为源领域。后五个领域既可以作为源领域,也可以作为目标领域。另外,针对后五个领域,我们还提供了大规模的无标注数据。
数据集的规模统计如下:
train | dev | test | unlabeled | |
---|---|---|---|---|
BC | 26.1K | 1K | 2K | 0 |
PB | 5K | 1.3K | 2.5K | 291K |
PC | 6.8K | 1.3K | 2.6K | 349K |
FIN | 5K | 1K | 1.8K | 118K |
LEG | 5K | 1K | 1.9K | 150K |
ZX | 1.5K | 0.5K | 1K | 33K |
三、评价方式
采用句法分析经典的评价方式UAS和LAS,公式如下::
四、报名方式及赛程安排
报名时间
2021.4.1-2021.7.5
报名方式:
请在此链接处进行报名:报名表
赛程安排:
- 2021.4.1-7.5 报名阶段
- 2021.4.15 公布相关训练数据
- 2021.7.13 公布无答案的测试集
- 2021.7.15 测试集结果提交截止
- 2021.7.20 评测报告提交
- 2021.7.30 公布结果
- 2021.8.13-8.15 CCL2021 评测研讨会
提交方式:
本评测使用邮箱进行结果提交。参赛队伍需要于2021.7.15之前将包含结果的文件打包(zip/tar.gz)发送至邮箱sudaccl2021dep@163.com,邮件的标题为“CCL2021-domain adaptation-参赛队名-评测结果”,邮件附件为结果文件。压缩包内请按照如下目录/文件命名和组织形式(没有参加的子任务忽略即可),方便我们后续处理。请参考Dev数据及Readme,确保每个文件严格采用CoNLL格式。
- subtask1-closed/PC-Test.out.conll
- subtask1-closed/PB-Test.out.conll
- subtask1-closed/ZX-Test.out.conll
- …
- subtask2-open/PC-Test.out.conll
- subtask2-open/PB-Test.out.conll
- subtask2-open/ZX-Test.out.conll
本评测要求最终获奖的队伍提供算法代码与系统报告(包括方法说明、数据处理、参考文献和使用开源工具等信息),一方面我们需要确保您使用的方法符合我们的任务要求,另一方面以供会议交流。请大家在7月20日前将相关文件打包发送至周明月邮箱(sudaccl2021dep@163.com),邮件的标题为“CCL2021-domain adaptation-参赛队名-评测报告”,邮件附件为相关文件。
五、奖项设置
- 本届评测将评选出如下奖项,颁发奖金和荣誉证书。
- 受中国中文信息学会资助,本次评测设置了2万元奖金,每个赛道各1万元。
- 由中国中文信息学会计算语言学专委会(CIPS-CL)为获奖队伍提供荣誉证书。
奖项 | 一等奖 | 二等奖 | 三等奖 |
---|---|---|---|
奖励 | ¥5,000 + 荣誉证书 | ¥3,000 + 荣誉证书 | ¥2,000 + 荣誉证书 |
六、注意事项
- 填写报名表之后我们会发给您数据使用协议,在收到数据使用协议后我们会把数据发给您。由于版权保护问题,我们只面向机构、单位等团体开放数据;对于公司,我们仅面向从事句法分析研究的公司开放数据,签署协议前请先咨询我们是否有可能共享数据;解释权归我们课题组。如果您不需要无标注数据,那么只需要签署标注数据使用协议。
- 数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。
- 如需使用本数据集进行课题研究及论文发表,请联系:sudaccl2021dep@163.com。
- 算法与系统的知识产权归参赛队伍所有。
- 要求最终获奖的队伍提供算法代码与系统报告(包括方法说明、数据处理、参考文献和使用开源工具等信息),供会议交流。
- 本评测负责人:李正华(苏州大学);联系人:周明月(sudaccl2021dep@163.com)、李帅克