想知道你的文章需要耗时多久阅读?不妨 »点击这里« 试试看!
简介
清理 TMX(翻译记忆交换)文件对于确保您的翻译记忆库的准确性和效率至关重要。本指南将带您逐步完成使用 Okapi Olifant 清理文件的过程。
步骤 1:开始
-
下载 TMX 文件:
-
访问 OPUS 网站或其他提供 TMX 文件的平台。
-
选择并下载适合您需求的大型 TMX 文件。
-
-
设置 Okapi Olifant:
-
下载并安装 Okapi Olifant(旧版 22)。如果您的系统上没有安装 .NET Framework 3.5 SP1,可能需要先安装它。
-
解压下载的
tmx.gz文件以提取实际的 TMX 文件。
-
步骤 2:清理 TMX 文件
删除不需要的翻译单元 (TUs):
在 Okapi Olifant 中打开您的 TMX 文件。
过滤出源文本(Src)与目标文本(Tgt)相同,或任一为空白或含有高比例非字母字符的 TUs。此步骤有助于减少噪音,并确保仅保留相关翻译。
检查长度比例:
比较源文本和目标文本的长度。如果它们之间的比例不一致,请删除这些 TUs。此步骤确保翻译正确对齐。
分段句子:
对包含长段落的 TUs 进行分段和对齐,并删除过长而无法分段的 TUs。这可以提高数据的粒度和多样性。
替换实体:
用通用字符串替换特定实体(如姓名、日期等),以维护数据隐私和一致性。
删除标签:
删除所有不必要的标签或占位符(如 HTML 或 XML 标签)。
确保一致性:
手动审查并调整术语、大小写等,以确保整个翻译记忆库的一致性。
消除重复:
移除完全重复的 TUs,以减少冗余并简化翻译记忆库。
标准化引号和标点符号:
标准化引号(例如,使用直引号而不是智能引号)和其他标点符号。特定语言可能需要进行后处理以确保正确使用。
步骤 3:审核与保存
审核: 再次检查清理后的 TMX 文件,确保所有步骤都已正确完成。
保存: 保存清理后的 TMX 文件,并在您的机器翻译系统中使用它,以提高性能和准确性。
v1.0.0 - 更新于2024年10月27日。