中英文网页中双语语料的挖掘

1、背景
   资讯快速膨胀，国际间的沟通日趋频繁的今天，快速处理大量的外文资料，已是一种普遍的需求。因此，利用翻译系统来协助人们快速获取资讯，已成为必然的趋势。在这种需求带动之下，用机器翻译系统来协助人们快速翻译，建档，也就成为无法避免的趋势，计算机辅助翻译应运而生。与此同时，网络的快速发展，提供了大量而丰富的双语对照电子文献，这就为机器辅助翻译提供了坚实的语料基础。
   目前机器翻译系统不能令人满意的现状也不容否认。机器翻译系统表现不佳的一个很重要的原因在于资源缺乏，无论采用何种机器翻译方法，都需要大量大规模的知识资源。基于规则的机器翻译系统需要大量的规则知识、词典知识。基于统计的方法和基于实例的方法需要大规模的双语对齐语料，一个好的机器翻译系统所必备的资源往往需要经年累月的积累，构建双语语料库对计算机辅助翻译是重要的。

2、双语语料(Bitext)的基本概念
   双语语料(bitext)是一种生成文档，它包含给定文本的源语言和目标语言之间的翻译。双语语料通过一系列被称为“对齐工具”(alignment tool)或“双语语料工具”(bitext tool)的软件产生，这些工具可以自动对齐同一种文本的源语言和被翻译的语言。这种工具通常情况下可以逐句(sentence by sentence)匹配这两种不同语言版本的文章。将这些双语语料句子对存储起来就会形成双语语料数据库或双语文集，使用者可以通过搜索引擎来查阅数据库提取需要的双语语料。

3、TMX的基本概念
      TMX (Translation Memory eXchange) 即翻译存储交换，是一种厂商中立的、开放式 XML 标准，用于交换计算机辅助翻译（CAT）和本地化工具创建的翻译存储（TM）数据。TMX 的目的是促进工具和/或翻译厂商之间的翻译存储数据交换，在这一过程中不损失或很少损失重要的数据。

4、本文工作
   分析获取网站对应相同内容的中文、英文网页，根据HTML标记、标点符号等标志信息确定英文和中文语句的对应关系，组合出双语语料，并按照TMX（Translation Memory Exchange）格式存放这些双语语料。并且希望开发的软件能支持用户交互管理双语语料(暂时没做)。
效果图
1）提取双语语料

2)生成TMX

5、总结
原理就是利用.Net平台的Markup Service实现把中英文网页解析为DOM树，这两棵DOM具有相同的结构。得到DOM树后，然后遍历两个DOM树，把相同的节点的text等属性值匹配成双语语料。实现的原型系统可以提取中英文网页中的双语语料，但系统的容错能力差，要求中英文网页必须就有相同的结构（格式）。

posted on 2008-05-27 19:18 何克勤阅读(1394) 评论(3) 编辑收藏

常用链接

留言簿(4)

我参与的团队

随笔分类

随笔档案

收藏夹

C++ 社区

常用网站

搜索

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理