4月8日, 中国中文信息学会(CIPS)计算语言学专委会2023年第一期学术沙龙在科大讯飞北京总部举行,主题为智能文本校对,本次活动邀请到哈尔滨工业大学教授车万翔、中国人民大学副教授夏天、阿里巴巴达摩院高级算法专家李辰、腾讯高级研究员刘树林作为主题报告嘉宾。同时,邀请了北京信息科技大学教授张仰森、苏州大学教授李正华、北京语言大学助理研究员饶高琦参与到高峰对话环节。本次活动汇聚了相关行业的高级技术人员、高校学者等共 65人,就智能文本校对的发展方向以及ChatGPT对行业的影响进行了分析和讨论。本次沙龙由科大讯飞北京研究院执行院长伍大勇主持。
伍大勇主持活动
CIPS计算语言学专委会副主任刘康开场致辞,刘康表示CIPS计算语言学专委会主办本次学术沙龙,旨在能为学术界和产业界提供更多的交流机会,共同探讨智能文本校对的技术发展与产业应用。对承办方表示了感谢并预祝本次沙龙活动圆满举行。
刘康致辞
哈尔滨工业大学教授车万翔以《中文语义级病句判别与纠正技术》为主题。介绍了传统的病句主要包括拼写错误、语法错误(冗余、缺失、语序等问题)等,而语义级病句则面向更复杂的病句现象,包括搭配不当、语序不当、残缺或赘余、结构混乱、语意不明、不合逻辑等。车万翔表示相对拼写错误和语法错误,语义病句形式上通顺流畅,因此即便对人类来说也难以轻易的判别和纠正。针对以上问题,车万翔教授团队收集、标注了一套高质量语义判别与纠正数据集,并基于该数据集组织了相应的技术评测。此外,针对语义级病句的词语间句法依赖关系不合理的特点,提出了一种基于句法结构关系的预训练语言模型,进而对语义级病句进行识别,性能基本达到人类大学生水平。最后,构建了语义纠错基线系统,并通过人工构造的伪数据进一步提升了系统的性能。
车万翔做主题报告分享
中国人民大学副教授夏天分享了《智能校对的任务需求与常见技术路径》为主题的报告。报告中主要介绍了智能校对在拼写、语法、事实、规范等不同层次的任务需求,以及大模型驱动的智能校对相关技术方案和发展趋势。夏天认为,目前ChatGPT像一个兼具问答、翻译、改写等各种能力的“通才”,但依然可以用更有效率、更能融入语言特点的方式构建校对大模型,实现擅长校对任务的“专才”,以应对未来的竞争和挑战。
夏天做主题报告分享
阿里巴巴达摩院高级算法专家李辰以《助推文本纠错发展:评测、开源和大模型》为主题,主要从应用层面介绍了近年来文本纠错技术的发展。恰逢阿里刚刚发布大模型“通义千问”,李辰表示在当下探讨智能创作中的时代与机遇,需要通过多方面评测,同时也需要深入探究大模型和小模型的互补,怎样能为用户带来更好的体验感受,也希望各方力量能汇聚后共创文本纠错的崭新未来。
李辰做主题报告分享
腾讯高级研究员刘树林分享了《面向纠错的预训练语言模型》的主题报告,介绍了其团队在纠错技术领域的研究成果和应用实践。刘树林表示,语言模型对拼写纠错至关重要,训练适合拼写纠错任务的语言模型是优化该任务的有效途径。另外,纠错模型对文本中错字个数较为敏感,鲁棒性较差,针对该问题,腾讯提出了一种上下文鲁棒的纠错模型。他还表示,腾讯目前正在尝试基于大模型的纠错方法,并展示了初步的实验结果。
刘树林做主题报告分享
科大讯飞研究主管王宝鑫分享了主题为《中文文本校对与改写:从算法研究到业务应用》的报告。主要介绍了科大讯飞在文本校对与改写任务方面的算法研究进展,以及在文本校对资源构建、组织评测等方面的相关工作。同时,介绍了科大讯飞的飞鹰文本校对系统以及讯飞知道业务部的文本校对项目实践经验,并从C端、B端、G端三个方面阐述了相关产品和业务逻辑。最后,王宝鑫结合ChatGPT对文本校对与改写等相关的工作做了进一步展望。
王宝鑫做主题报告分享
在主题为“ChatGPT对智能文本审校的影响及未来发展趋势”的Panel对话环节中,几位专家就文本自动校对技术未来的重点研究方向、挑战和应对思路,以及ChatGPT和GPT4对文本自动校对技术和通用人工智能研究的影响和发展等话题展开讨论。专家们表示,未来的智能文本校对发展方向应以应用为目标,以落地为驱动力,根据行业实践中的需要去开发相应的技术;对于大模型而言,“通用”这一概念较难定义和达成,目前的大模型技术还未达到通用人工智能的水平。虽然当前大模型已成为出色的信息整理与提供者,但仍无法作为最终决策者替代人类的工作。
Panel环节(图左起:伍大勇、李正华、车万翔、张仰森、饶高琦)
本次CIPS计算语言学专委会2023年第一期学术沙龙活动,为专家学者们搭建起一个良好的交流平台,从文本校对的发展历程到ChatGPT出现后对行业的冲击与挑战及大模型未来的发展方向进行了分享,活动过程中,参会者积极踊跃的发言与提问,共同围绕相关话题智能文本校对以及大模型未来的发展进行了热烈的交流与探讨。
参会者提问现场
参会嘉宾合影