第十八届中国计算语言学大会(CCL 2019)
系统展示

 

编号 系统 单位
1 “九歌”人工智能诗歌创作系统V2.0 清华大学自然语言处理与社会人文计算实验室
2 智慧法院智能问答系统 中国科学院自动化研究所
3 fastNLP:模块化的开源NLP框架 复旦大学
4 小牛数据标注系统 小牛思拓(北京)科技有限公司
5 面向社交媒介的金融信息服务平台 福州大学信息检索课题组
6 云岭机器翻译 昆明理工大学
7 智能辅助写作 金山办公
8 小牛翻译云 小牛翻译团队
9 金融知识图谱对话机器人 北京融汇金信信息技术有限公司
10 通用句树可视化标注及语料处理系统 重庆大学语言认知及语言应用研究基地语料库研究所
11 法律案情分析系统 清华大学自然语言处理与社会人文计算实验室
12 SocialSpider:大规模社交网络舆情数据采集系统 北京理工大学
13 苏大汉语分析平台、数据标注平台、及汉语开放树库CODT建设 苏州大学

系统介绍

1 “九歌”人工智能诗歌创作系统V2.0(清华大学自然语言处理与社会人文计算实验室)

        九歌是清华大学自然语言处理与社会人文计算实验室研发的人工智能诗歌写作系统。该系统采用最新的深度学习技术,结合多个为诗歌生成专门设计的模型,基于超过80万首人类诗人创作的诗歌进行训练学习。
        新发布的“九歌”V2.0版相比于V1.0版,新增了三大功能:
        1)多模态输入:“九歌”V2.0支持多关键词、语句段落、图片等多模态的输入,能够方便地为用户的微博(推特)文本或者照片生成诗歌;
        2)多体裁多风格生成:“九歌”V2.0支持中文传统绝句、藏头诗、集句诗、词等不同体裁的诗歌生成,同时提供多种风格选项。
        3)人机交互创作:“九歌”V2.0提供人机系统交互创作模式。用户可对系统生成的诗歌中不满意的部分进行修改,系统根据用户的修改动态更新,人机协同创作出一首诗歌。同时九歌将为用户提供修改建议,并推荐相似的人类诗人诗作作为参考,以及为修改后的诗歌自动评分。
        区别于其他诗歌生成系统,九歌具有多模态输入、多体裁多风格、人机交互创作模式等特点。九歌系统及其研发团队致力于探索AI技术和人文领域的结合,助力AI赋能文学教育,为中华优秀诗词文化的传承与发展贡献力量。


2 智慧法院智能问答系统(中国科学院自动化研究所)

        本系依托国家重点研发计划,属于智慧法院智能化服务技术研究的一个子任务。本系统的目标是实现面相案件执行全流程的智能问答技术与平台。
        本系统通过研究法院立案、审批、执行的全流程,构建了司法知识图谱。结合情感感知交互式知识问答方法、融合知识图谱与按键卷宗的深度问答方法、应用阅读理解式深度问答方法。通过分析文本内容、结合司法知识图谱与案件卷宗信息。开发出来了多个终端:面相法官与面相当事人端以及系统管理端。
        法官端系统主要服务于法官的日常工作,关于案件卷宗,指导案例,融合了语音识别等技术,法官可以使用自然语言的方式进行法条、案件知识问答。提高法官的工作效率。
        当事人端主要服务于司法过程中的当事人,可以使用自然语言的方式咨询案件业务流程,对诉讼服务提供支持,支持当事人的法律咨询,支持当事人进行进度查询、案件材料审核查询、以及信访。


3 fastNLP:模块化的开源NLP框架(复旦大学)

        fastNLP 是一款轻量级的 NLP 处理套件。你既可以使用它快速地完成一个序列标注(NER、POS-Tagging等)、中文分词、文本分类、Matching、指代消解、摘要等任务; 也可以使用它构建许多复杂的网络模型,进行科研。它具有如下的特性:
        1)统一的Tabular式数据容器,让数据预处理过程简洁明了。内置多种数据集的DataSet Loader,省去预处理代码;
        2)多种训练、测试组件,例如训练器Trainer;测试器Tester;以及各种评测metrics等等;
        3)各种方便的NLP工具,例如预处理embedding加载(包括ELMo和BERT); 中间数据cache等;
        4)详尽的中文文档、教程以供查阅;
        5)提供诸多高级模块,例如Variational LSTM, Transformer, CRF等;
        6)在序列标注、中文分词、文本分类、Matching、指代消解、摘要等任务上封装了各种模型可供直接使用,详细内容见 reproduction 部分;
        7)便捷且具有扩展性的训练器; 提供多种内置callback函数,方便实验记录、异常捕获等。


4 小牛数据标注系统(小牛思拓(北京)科技有限公司)

        小牛数据标注系统是一款人机交互的文本数据标注软件。包含标注任务管理子系统、任务标注子系统、任务校对子系统、任务质检子系统、后台管理子系统、NLP模型自动标注子系统等,涵盖了标注的各个重要模块。现可支持文本标注和处理,包括事件抽取、命名实体标注及关系标注、情感意图判断、关键属性信息标注、对话生成、问答复述、中英文校改以及译写、网页相关性标注等。
        小牛数据不仅拥有先进的自然语言处理技术(NLP),还拥有NLP领域的专家坐阵,与客户共同探讨高质量标注规范定义,更有:
        1.全流程管理的人机协同标注平台;
        2.稳定高质量的数百人标注团队,均为本科以上学历,知识结构合理;
        3.完善的质量控制机制、应急预案机制以及数据安全保障机制。
        目前已建立了包括清华大学、北京理工大学、中国科学院、苏州大学、沈阳雅译、北京来也、智能一点等在内的几十家长期合作伙伴,广受客户好评!


5 面向社交媒介的金融信息服务平台(福州大学信息检索课题组)

        本系统是一个全面覆盖、健全完善的、统一的金融信息综合服务平台。通过对互联网社会媒介信息的采集、抽取、存储、分析,可以获取信息的相关度、倾向性、影响力等指标,这些指标可以成为舆情分析和量化投资的基础。基于这些大量有价值的信息,我们可以为金融数据分析系统提供各类媒介的信息监测、信息预警、信息个性化推荐等服务,可以为量化投资系统提供事件发现、行业评级、股票发现、股票评级等服务。


6 云岭机器翻译(昆明理工大学)

        云岭翻译是由昆明大身信息科技有限公司与昆明理工大学联合推出的翻译软件,采用神经机器翻译技术,支持中文、英文与越南语、泰语、缅甸语、老挝语、柬埔寨语、菲律宾语、印度尼西亚语、马来语、日语、韩语、波斯语、西班牙语、藏语、维语等40多种语言的互译,具有语音翻译、文本翻译等功能。更多服务内容,请访问云岭翻译开放平台:http://yuntrans.vip/


7 智能辅助写作(金山办公)

        本系统包含两部分分别为WPS政务版软件,WPS智能写作微信小程序。WPS政务版软件中包含辅助智能写作、素材推荐、智能校对等功能。WPS智能写作微信小程序包含功能智能写作、书信智能写作、诗词写作等功能。


8 小牛翻译云(小牛翻译团队)

        小牛翻译云平台是一套以“机器翻译”为核心、面向企业级用户大数据翻译任务的开放服务平台,2018年正式上线,入选国家工信部首批106个“人工智能与实体经济深度融合创新”项目。
        目前部署了基于小牛团队自主研发的119种语言神经机器翻译引擎,支持文本/文档翻译、用户术语词典/翻译记忆库等功能,提供云翻译API、用户私有部署、离线翻译SDK以及小牛云市场等应用模式。此外,小牛团队提供机器翻译引擎定制服务。
        云翻译API:按流量计费、基于https的开发接口,轻松集成到其它应用中;
         用户私有部署:将小牛翻译引擎部署到用户本地或者用户指定的云端服务器,可购买永久授权或按年租赁,小牛团队也可提供托管服务;
        离线翻译SDK:压缩版的独立小牛翻译引擎,为翻译机、翻译笔等小型智能硬件提供无网络连接环境中的机器翻译能力
        小牛云市场:发布与第三方合作的机器翻译应用,包括支持Android 和iOS手机的小牛翻译APP、支持Word、WPS、PDF等格式的文档翻译插件、支持Trados和memoQ的CAT插件等


9 金融知识图谱对话机器人(北京融汇金信信息技术有限公司)

        金融知识图谱:基于海量文本的知识自动提取,知识图谱的自动化生成。快速了解产业链及其动态变化,智能关联金融领域投资标的间的关系,及时掌握公司相关机会与风险,时刻掌握产业最新热点和国家政策。目前通过自动建立的金融知识图谱数据规模已达130万以上,涉及关系有公司产品,产业上下游,公司所属行业,产业的细分,公司的客户,公司的供应商等。
        基于知识图谱的对话机器人:依托人工智能技术背景,应用语义识别、自然语言处理、深度学习、大数据等方式,实现人机交互,为用户提供专业的人工智能机器人,专注解决金融领域“客户服务” “投资顾问”“智能问答”等问题,成为机构服务客户的投资助手和智能工具,并为机构提供专业金融数据智能分析、构建大数据分析平台。可回答公司分析、行情分析、产业分析、政策分析、投教百科、资讯阅读、公告解读、人物公司关系等上百类金融领域问答。


10 通用句树可视化标注及语料处理系统(重庆大学语言认知及语言应用研究基地语料库研究所)

        通用句树可视化标注及语料处理系统
        1、创作目的
        构建面向网络的、符合信息依存标记语言规范的全新数据处理平台,尤其适用于语料库建设的语料标注工作。
        2、软件用途
        适用于计算机应用领域,主要用于浏览、编辑与保存符合信息依存标记语言(Information Dependency Markup Language, IDML)规范的文档,例如基于互联网的数据存储、语料库建设等。
        3、主要功能
        打开、解析、浏览、编辑与保存信息依存标记语言文档。既可以文本模式进行浏览和编辑,又可以树结点和信息依存图等方式可视化浏览与编辑。
        4、技术特点
        采用优于传统标记语言的信息依存标记语言规范,文本与界面同步的数据浏览与编辑模式,与传统标记语言编辑器相比更为高效易用。
        5、运行环境
        硬件环境:CPU为1.0GHz以上,内存为500MB以上,硬盘为10G以上。软件环境:操作系统为Windows XP或Windows NT或Windows Vista,预先安装有Microsoft .Net Framework 2.0。


11 法律案情分析系统( 清华大学自然语言处理与社会人文计算实验室)

        本系统旨在使用解决目前社会上“案多人少”、司法效率低的问题。近几年深度学习技术的高速发展,使得人工智能得到越来越多学者的关注。很多问题也都得到了解决,其中序列标注、文本分类、机器阅读理解等任务得到了很大的突破。以此为基础,我们团队开发出法律案情分析系统。该系统利用前沿自然语言处理技术解决实际生活中的法律问题,已经实现了法律案件的关键词标签抽取、案情事件抽取、判决预测、相关案件推荐等功能。系统实现了对案情描述的多角度分析,能够满足大众对于法律服务的需求,同时能够为专业人士提供统一的判案标准,推动司法公正。


12 SocialSpider:大规模社交网络舆情数据采集系统(北京理工大学)

        SocialSpider是一个针对主流社交网站的大规模舆情数据采集系统。社交媒体上的数据全面且丰富,草根网民与明星官媒都在社交网络上发表观点,相互评论;热点事件,网络新词也都率先从社交媒体上发酵。所以社交媒体上的数据是巨大的数据金矿,尤其以文本为主的数据格式,为舆情分析,多轮对话,实体识别等NLP任务提供了丰富的数据基础。然而,目前缺乏一个专业的全面的大规模的社交网络爬虫,使得针对社交网络数据的获取非常困难,尤其对于敏感事件的采集无法满足时效性。因此SocialSpider应运而生。系统亮点如下:
        采集数据源丰富:支持新浪微博、Twitter、Facebook、Linkedin、Youtube、Instagram等国内外社交网站,并可以快速接入新的数据源。
        采集内容多样:支持抓取用户博文、用户信息、社交网络关系等内容,支持文本采集、图片和视频等多媒体数据下载。
        支持多种采集方式:一次性关键字抓取、定时增量抓取、关键数据追踪。
        界面友好:系统基于B/S架构,具有友好的后台管理界面,操作简单,支持可视化扩展。采取前后端分离的模式,前端使用Vue.js,后端使用Flask框架,便于二次开发。
        运行稳定、采集速度快:基于Scrapy和Selenium框架,使用Docker一键部署,支持分布式部署,可以根据需求快速扩容。
        经过多年的经验积累,经历了多次产品迭代更新,SocialSpider克服了传统爬虫项目中遇到的技术难点:
        反爬虫:系统支持账号池、代理池导入,支持按账号密码登录和Cookie直接导入的方式。通过多账号,多IP协同工作,系统每日可以采集到上亿级的数据。
        多端采集:内置了移动端(WAP)采集接口,使用移动端采集


13 苏大汉语分析平台、数据标注平台、及汉语开放树库CODT建设(苏州大学)

        汉语分析平台:包含分词、词性、句法、语义等功能,特色包括:
        1)支持两种分词和词性规范;
        2)高精度多领域句法分析;
        3)支持弱标注输入、方便模型调试和分析;
        4)目前最先进深度学习模型。http://hlt-la.suda.edu.cn/
        数据标注平台:支持多分类、层次分类、分词、NER、句法、语义标注,特色包括:
        1)局部标注提高效率和质量;
        2)双人标注、审核、投诉、学习的自动化高质量标注流程。http://139.224.234.18/anno-sys
        汉语开放树库CODT建设情况汇报:目前12万句,涵盖约10个不同领域的文本,支持树库转化(多源异构数据的利用)和领域移植任务等。http://hlt.suda.edu.cn/index.php/CODT