教程 | 如何使用 Okapi Olifant 清理 TMX 文件

简介

清理 TMX(翻译记忆交换)文件对于确保您的翻译记忆库的准确性和效率至关重要。本指南将带您逐步完成使用 Okapi Olifant 清理文件的过程。

步骤 1:开始

  1. 下载 TMX 文件:

    • 访问 OPUS 网站或其他提供 TMX 文件的平台。

    • 选择并下载适合您需求的大型 TMX 文件。

  2. 设置 Okapi Olifant:

    • 下载并安装 Okapi Olifant(旧版 22)。如果您的系统上没有安装 .NET Framework 3.5 SP1,可能需要先安装它。

    • 解压下载的 tmx.gz 文件以提取实际的 TMX 文件。

步骤 2:清理 TMX 文件

  1. 删除不需要的翻译单元 (TUs):

    • 在 Okapi Olifant 中打开您的 TMX 文件。

    • 过滤出源文本(Src)与目标文本(Tgt)相同,或任一为空白或含有高比例非字母字符的 TUs。此步骤有助于减少噪音,并确保仅保留相关翻译。

  2. 检查长度比例:

    • 比较源文本和目标文本的长度。如果它们之间的比例不一致,请删除这些 TUs。此步骤确保翻译正确对齐。

  3. 分段句子:

    • 对包含长段落的 TUs 进行分段和对齐,并删除过长而无法分段的 TUs。这可以提高数据的粒度和多样性。

  4. 替换实体:

    • 用通用字符串替换特定实体(如姓名、日期等),以维护数据隐私和一致性。

  5. 删除标签:

    • 删除所有不必要的标签或占位符(如 HTML 或 XML 标签)。

  6. 确保一致性:

    • 手动审查并调整术语、大小写等,以确保整个翻译记忆库的一致性。

  7. 消除重复:

    • 移除完全重复的 TUs,以减少冗余并简化翻译记忆库。

  8. 标准化引号和标点符号:

    • 标准化引号(例如,使用直引号而不是智能引号)和其他标点符号。特定语言可能需要进行后处理以确保正确使用。

步骤 3:审核与保存

  • 审核: 再次检查清理后的 TMX 文件,确保所有步骤都已正确完成。

  • 保存: 保存清理后的 TMX 文件,并在您的机器翻译系统中使用它,以提高性能和准确性。

滚动至顶部