系统展示

2016年10月16日08:30-17:00在学术中心一楼安排了系统展示,参会代表可随时去展示区与参展单位交流讨论。10:50-12:30为集中参观时间。


时间:2016年10月16日
地点:鲁东大学学术中心学术会堂一楼107室
编号单位系统
1阿里巴巴阿里巴巴小蜜和机器翻译平台
2北京大学基于“词库—构式”互动的汉语意合语法理论的汉语信息处理系统与资源
3北京语智云帆科技有限公司试译宝、术语宝和译后编辑平台
4复旦大学FNLP自然语言处理开源工具包
5哈尔滨工业大学哈工大语言技术平台与大词林
66EstatesAMI数据智能分析平台
7清华大学THUNLP自然语言处理开源工具包
8香港理工大学一二三翻译
9中国科学院计算技术研究所基于深度神经网络的机器翻译系统
10中国科学院自动化研究所百科知识图谱和智能问答系统
11厦门大学云使跨语言搜索引擎

系统介绍


1 阿里巴巴小蜜和机器翻译平台阿里巴巴

        阿里小蜜是阿里智能私人助理,依托于客户真实的领域需求与阿里电商领域,基于阿里海量消费数据,结合线上、线下的生活场景需求,以人工+智能模式提供智能购物、极速服务的完美助理体验。阿里小蜜是一个电商领域相对综合的智能助理场景,采用了分策略模型,针对不同的场景采用不同的算法模型,整体采用了传统机器学习与深度学习相结合方式在工业场景落地。在手机淘宝客户端【我的淘宝】上可以找到。同步以工具形式在千牛平台和钉钉平台向商家和企业进行开放。
        阿里翻译始于解决跨境电商场景中的信息交流问题,结合机器翻译和众包人工翻译技术,已支持超过20多个语种方向,应用于诚信通、速卖通、天猫国际等多个电商平台,承接了商品翻译、搜索查询翻译、用户评论翻译等多种翻译需求。阿里翻译从数据和翻译记忆等技术维度,有效结合了机器翻译和众包人工翻译快速优质的翻译特点,发展出了人机结合的翻译模式。在机器翻译方面,阿里翻译自主研发了短语翻译系统、层次短语翻译系统和神经网络翻译系统,并有效利用了系统融合等进一步提升翻译质量的技术。在众包人工翻译方面,阿里翻译发展出了多语言人才管理、众包任务处理和质量控制等技术,培育了众包翻译、众包数据标注等工种。另外,阿里翻译研发了翻译质量评测和监测系统,为自身应用场景提供质量控制服务。目前,阿里翻译已将应用扩展到阿里旅行、钉钉等多个应用,将翻译场景延伸到境外旅行、跨境企业交流等翻译场景。另外,阿里翻译已在云市场开放了优质廉价的语种识别和多语言翻译API,提供了阿里语言服务在线翻译网址(translate.alibaba.com),为跨境电商卖家和跨境咨询公司提供翻译服务。


2 基于“词库—构式”互动的汉语意合语法理论的汉语信息处理系统与资源北京大学

        “基于‘词库—构式’互动的汉语意合语法理论的汉语信息处理系统与资源”(以下简称“意合理论系统”)力求在汉语意合语法理论框架的指导下,探索对汉语句子进行充分的句法分析和语义解释,研究和建设面向汉语自动理解的语言知识资源,开发汉语文本内容挖掘的计算系统和知识平台。
        本次将展示“意合理论系统”中部分的子系统,包括:词库平面的“汉语形容词句法语义信息词典”、“汉语动词句法语义信息词典”和“汉语词类和语法结构测试系统”,关系平面的“汉语亲属关系推理系统”、“汉语名名组合自动释义系统”和“汉语动词蕴涵关系查询系统”,以及构式平面的“汉语‘比’字句关键要素提取系统”和“汉语‘把’字句自动释义和变换系统”等8个子系统。
        “意合理论系统”一方面通过对动词的论元结构(配价层级和配位方式)的描写来揭示汉语语法的意合机制,并对汉语语法的意合特点做出可操作的、可以直接运用于语言计算的说明。另一方面,在更底层的词库平面上建构和描述词语的物性结构(qualia structure)等基本的概念结构,在高层的构式(construction)平面上描述构式的形式-意义配对关系,再辅之于语义的扩散性激活和缺省推理等动力学机制。通过综合各层面的语义知识,以期能够有效地把握和刻画汉语语法的意合机制:词语或小句怎样直接组合来表情达意,并且使听话人能够正确地理解会意。
        


3 试译宝、术语宝和译后编辑平台北京语智云帆科技有限公司

        试译宝是最新推出的译员翻译水平自动评估产品,其中包括相关知识点的自动反馈、译员之间互评及修订、译员排行榜等功能,不但能提升译员招募、培训效率,还能让译员互相学习、共同成长。
        术语宝是面向翻译工作者的术语管理工具,其中包括在线检索术语(提供对应的双语例句对)、单/双语术语自动提取、标注和共享术语等功能,不但能满足用户积累并分享术语,还能帮助用户自动提取出文章中的术语并导出,能快速方便的满足用户对术语的各种需求。
        译后编辑工作平台建立了实证有效的专利翻译生产环境,其中包括翻译任务的管理和分配、术语自动标注、机器自动翻译(SMT + EBMT)、译后编辑等功能,不但包括分配和回收任务的这个流程,还提供术语和译文的候选供译员进行参考,大大提升译员的翻译效率,同时也方便整个项目的管理。
        


4 FNLP自然语言处理开源工具包复旦大学

        FNLP主要是为中文自然语言处理而开发的开源工具包,也包含实现这些任务的机器学习算法和数据集。具体功能包括:(1)中文自然语言处理基础功能:中文分词、词性标注、实体名识别、句法分析、时间表达式识别、文本分类、聚类、关键词抽取等;(2)机器学习算法:线性分类算法、聚类算法、结构化学习算法、精确推理等。项目地址:https://github.com/FudanNLP/fnlp


5 哈工大语言技术平台与大词林哈尔滨工业大学

        语言技术平台:语言云全称“语言技术平台云(LTP-Cloud)”。是基于云计算技术研发的中文自然语言处理服务平台,后端依托于语言技术平台(LTP),为用户提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。
        大词林:《大词林》是一个开放域命名实体知识库自动构建系统,系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别,并从Apriori关联项、后缀上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次关系。《大词林》以《同义词词林(扩展版)》作为骨架,不断添加命名实体及其层次化类别信息,自动构建开放域命名实体知识库。目前,《大词林》中有:约167.0万个实体、类别共约3.6万个,上下位关系达224.3万。


6 AMI智能数据分析平台6Estates

         来自新加坡的6Estates科技公司致力于研究和使用以人工智能为基础的大数据分析技术,帮助中外企业理解日益变化的中国、全球市场以及消费者行为喜好。6Estates的AMI 平台专注于用户生成内容(UGC)深度语义分析,自动化即时深层挖掘消费者动态, 明确消费者行为喜好。
        AMI数据覆盖的范围极广,能实时为客户从中智能抓取有效数据,过滤掉垃圾信息,通过深层语义分析及自然语言处理,为客户提供:
        • 科学营销建议、评估潜在回报率
        • 实时并持续追踪用户反馈
        • 精准识别话题走向
        • 关联对象及深度关系挖掘
        • 多维度用户群体洞察分析展示


7 THUNLP自然语言处理开源工具包清华大学

        
         THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。特点包括:能力强,约含5800万字的中文语料库;准确率高,Chinese Treebank(CTB5)分词的F1值达97.3%,词性标注的F1值达92.9%;速度较快,同时进行分词和词性标注速度300KB/s,每秒处理15万字。分词速度1.3MB/s。
        THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高、测试速度快的优点。
        THUTag是由清华大学自然语言处理实验室推出的关键词提取和标签推荐工具包,能够实现用户自定义的文本语料关键词提取/标签推荐的训练、交叉检验、提取关键词/标签功能。同时提供一个关键词提取和一个标签推荐的训练集。
        NSC(Neural Sentiment Classification)是利用神经网络,通过最先进的情感分类方法辨别文章中带有的情感。本项目分别实现了以用户和作品信息为数据集的NSC,NSC+ LA和NSC+ UPA等模型,用以分辨作品中的情感等级。
        NRE(Neural relation extraction)是通过神经网络模型,采取最先进的方法进行纯文本的关系提取。本项目实现了多种版本的CNN和PCNN模型进行关系提取。
        KB2E(Knowledge Base to Embedding)是知识图谱表示学习模型,通过向量或者矩阵对知识图谱中的实体和关系进行表示,是目前最先进的知识图谱完善方法,并被用于关系抽取的外部补充资源。本项目实现了TransE,TransH,TransR和PTransE模型。
        KR-EAR (Knowledge Representation with Entities, Attributes and Relations)是同时对实体、属性和关系进行表示的知识图谱表示模型,在知识图谱完善的三个子任务上取得了目前的最好效果。本项目实现了两种不同关系表示器的KR-EAR,分别是KR-EAR(TransE)和KR-EAR(TransR)。
        TsinghuaAligner是双语词语对齐系统,能够自动发现双语词语之间的对应关系。系统具有以下特点:(1) 语言无关性:系统基于平行语料库训练对齐模型,可用于任意语言;(2) 易扩展性:系统基于对数线性模型,可以加入任意知识源;(3) 有监督训练:可以在标注数据上利用最小错误率训练算法优化模型参数;(4) 无监督训练:可以在无标注数据上利用对比学习和top-n采样法快速准确优化模型参数;(5) 支持丰富的结构约束:支持多对多、ITG和block ITG约束;(6) 支持连线后验概率:能够为每条连线输出后验概率。
        


8 一二三翻译香港理工大学

        
         一二三翻译 (Yes Translate) 是一个普通用途 中-英自动翻译工具,其主要特点如下:
        • 忠于原文意思,尽量保证内容的完整性和准确性;
        • 保留词语上 分词语法上的二义性让读者根据上下文选用;
        • 以《一二三汉英大词典》12万词条为基础;
        • 结合采用基于词典,统计和规则的机器翻译技术;
        • 支持译后的编辑校对。
        网址: http://www.mypolyuweb.hk/ctxzhang/yesmt/
        


9 基于深度神经网络的机器翻译系统中国科学院计算技术研究所

        深度神经网络翻译系统:最新推出的基于神经网络的翻译系统,通过改进递归神经元的结构,增强了模型的表达能力。在极大降低了模型参数的情况下,依然可以取得与大参数模型相当甚至更好的翻译性能。
        


10 百科知识图谱和智能问答系统中国科学院自动化研究所

        知识图谱管理系统:面向知识图谱构建、更新、维护的关联工具。包括管理员通道和普通用户通道。普通用户可以管理员分配的知识点进行标注、更新、合并等操作;管理员可以分别标注任务给普通用户、可以导入schema和事实数据。另外,系统还可以进行数据的查询和展示。更多的应用场景敬请期待。
        简单问题百科知识问答系统:基于所构建知识图谱,通过问句解析,回答与事实相关的问题(单个事实能回答或简单的链式关系)并给出答题过程,比如回答“华为总裁毕业于什么学校?”等问题。
        复杂问题百科知识问答系统:对于复杂问句,通过问句分析、候选答案生成、答案排序和答案过滤等步骤,能够回答“作品有《达坂城的姑娘》等作品,被称为“西部歌王”的音乐家是哪位?”等问题。
        


11 云使跨语言搜索引擎统厦门大学

        跨语言信息检索:云使搜索引擎(http://search.cloudtranslation.cc/)公开于2014年,是国内第一个藏文搜索引擎,目前已支持英语、汉语、藏语、蒙古语、维吾尔语、哈萨克语、尼泊尔语等多种语言的信息检索,支持常用的date、site等指令对搜索结果进行过滤,并实现了汉藏跨语言检索功能,可应用于跨语言舆情分析。
        机器翻译引擎:包括基于规则的机器翻译引擎(http://121.192.180.171:8080/tr.html)、基于统计的机器翻译引擎(http://cloudtranslation.cc/mt)、基于神经网络的机器翻译引擎(https://github.com/XMUNLP/RNNsearch),目前为云使搜索引擎提供翻译功能的是统计机器翻译系统。
        

© Copyright © 2016   鲁东大学 · 文学院 · 山东省语言资源开发与应用实验室 · 国家语委汉语辞书研究中心
^ Back to Top