< 返回
基于知识管理和智能控制的协同翻译平台

摘要:在对机器翻译发展艰难历程总结和反思的基础上,提出了以用户模型为核心的知识管理与机器翻译技术融合的新思想。2008年7月该成果通过了中国中文信息学会在京组织的鉴定,鉴定委员会一致认为;“研制单位基于其所承担的国家863课题机器翻译和知识管理技术的融合研发的基于知识管理和智能控制的协同翻译平台已圆满完成。该项研究在利用知识管理技术实现人机双向协同翻译方面达到国际领先水平。”本文对平台研制的思想与方法、设计与实现、分析与应用、历程与展望进行了阐述。

关键词:人工智能;机器翻译;知识管理;用户模型;协同翻译平台

中图分类号:tp391

文献标识码:a

1、思想与方法

1.1思想

不同于基于理性主义(规则、转换、中间语言)和基于经验主义(实例、模板、统计)的翻译方法,基于知识管理的协同翻译方法的本质是提出了以用户模型为核心的知识管理与机器翻译技术融合的新思想,关键是在创建用户状态模型和用户行为模型的基础上,将翻译人员作为系统的有机组成部分进行一体化设计,从而动态优化系统的全过程控制策略,实现人机双向对翻译知识的动态积累、实时转化、同步增益,进而实现翻译过程的人机合一。

从全自动高质量的翻译到人助机译的翻译,再到机助人译,反映了人们对机器翻译认识的不断全面、客观和深化。无论采用何种翻译方法,一条公认的原则是:系统对知识的拥有量、应用能力和对知识管理的有效性决定了翻译的质量和效率。

人作为知识管理系统的核心角色,可以看作是知识的直接“载体”,也是典型的知识管理“系统”。实现知识管理和机器翻译的融合,其本质就是要实现翻译用户与翻译系统的融合,即需要将用户作为系统的有机组成部分进行一体化设计,构建以人为本的人机协同翻译环境,从而确保用户和系统的优势得到最大化发挥。

以下是基于知识管理和智能控制的协同翻译平台(以下简称:协同翻译平台)在系统设计模式上与自动翻译系统和辅助翻译系统的区别:

自动翻译系统:该模式中用户与系统不能交互,用户只能被动地接收系统自动生成的翻译结果;系统不能得到用户的反馈,系统所使用的知识也是静态的。如图1所示。

辅助翻译系统:与自动翻译系统相比,辅助翻译系统(包括人助机译或机助人译)中增加了人一机交互模块,用户能够通过交互界面有限地参与机器翻译过程并指导译文的生成,系统能够记忆用户的最终翻译结果并作为之后翻译的参考。如图2所示。

协同翻译平台:通过创建用户模型,实现了人(用户)机(系统)的一体化设计,使用户、系统和知识处于一个和谐统一的管理平台中。用户模型作为用户在系统中的一种映射,为系统在翻译过程中的决策优化提供了支持和保障,也进一步提高了翻译知识积累和应用的有效性。如图3所示。

在协同翻译平台中,人与系统的翻译能力随着使用时间的增长也同步增长,同时相互的适应性也越来越强,协同工作效率也越来越高。如图4所示。

1.2方法

综上所述,用户模型是知识管理与机器翻译技术融合的核心和关键。通过创建用户模型,使各系统能够动态获取和共享翻译过程中的知识,并通过系统与用户、用户与用户的协同工作,实现了全过程中知识的有效循环和共同增益,从而确保了用户和系统的优势得到最大化发挥。

1.2.1用户模型分析与设计

用户模型是用户在系统中的一种映射。映射建立的过程是针对设计目标,对用户进行抽象的过程。在对协同翻译全过程中用户和系统交互状态和行为分析的基础上,本平台提出的用户模型包括状态模型和行为模型,状态模型描述了用户的特征(静态属性)和属性(动态属性),行为模型描述了用户在翻译过程中动作(显性行为)和决策(隐性行为)。如表1所示。

1.2.2过程数据采集和处理

由于用户数据的来源和性质不同,本平台采用多种策略的数据采集处理方案。具体过程如下:

1)用户静态属性

用户静态属性来自用户的自然状况,可由个人简历等文档中抽取和挖掘,这里不再细述。

2)用户动态属性

用户动态属性是通过实时采集用户翻译过程中的任务接收时间、任务提交时间、质检分数、翻译总量等基础数据,动态统计分析出用户的翻译速度、翻译质量、翻译总量、翻译排名、质量变化、速度变化等。

3)用户显性行为

用户显性行为是通过对用户操作日志进行分析计算得出。具体包括:鼠标左(右)键点击的术语和译文、鼠标点击的功能控制按钮、键盘快捷键控制的功能、键盘编辑的内容和习惯、查询的记录、制定的术语、报告的错误、检索的句对、提交的问题等。

4)用户隐性行为

用户隐性行为是通过分析协同翻译过程的各种中间结果所作出的决策。通过对比翻译和质检结果、质检和校对结果,结合翻译过程中用户所提出的疑难问题等,分析和评价各种结果的差异和相关语境,从而得出量化(形式化)的结果。

1.2.3用户模型建立和应用

用户状态模型基于用户静态属性和动态属性建立,其特征包括翻译速度、速度波动系数、翻译质量、质量波动系数、领域、经验和错误等特征。其中的翻译速度和质量反映了用户的综合翻译能力和水平;速度波动系数和质量波动系数反映了用户翻译速度和质量的稳定性;领域特征描述的是用户擅长的专业领域;经验特征是从翻译历史(数量、质量和速度)中分析提取的;错误特征是从译文质检结果和校对结果中获取的。

用户行为模型基于用户显性行为和隐性行为建立。如通过分析翻译人员修改参考译文和质检人员修改初期译文的过程,建立用户操作行为模型,可以用来辅助用户更高效地发现和定位译文中需要修改的地方。其建模的基本思想是:首先要定义人机交互翻译或校对过程中可能进行的基本操作集合(如插入、删除、修改、替换等),然后将翻译或校对过程看作是用基本操作对初期译文进行标注的过程,即将原问题转化为一个序列标注问题。在自然语言处理中,序列标注问题可以用crf、hmm、memm等方法来求解,如果假定所有操作是相互独立的也可以直接使用最大熵模型求解。

与其他现有机器翻译系统相比,本系统提出了建立用户状态模型和用户行为模型,从根本上解决了动态开放知识库建立过程中的知识评价、知识冲突和知识共享等问题,实现了知识的有效循环。

综上所述,用户模型是用户在平台中的一种映射,是实现翻译过程人人协同、人机协同、人机合一的基础,是知识管理与机器翻译技术融合的核心和关键。

2、设计与实现

2.1系统设计

基于人机一体化设计思想,面向翻译全过程构建基于知识管理和智能控制的协同翻译平台。平台以翻译知识及用户模型的管理和应用为核心,综合利用机器翻译技术(统计翻译技术、模板翻译技术、1[][]