Microsoft Custom Translator的培训数据中存在冲突

问题描述

我正在使用Microsoft Custom Translator,并以tmx格式提供培训数据。我的训练数据有一些冲突。例如,我有英语到德语的训练数据,其中有重复的英语字符串,但是这些重复的英语字符串的德语翻译是不同的。在这种情况下,它将如何影响模型?

解决方法

只要一侧是不同的,它们仅仅是替代的翻译,并且始终存在。替代方案将保留,并影响结果模型中的概率。

,

我将详细介绍我们尊敬的Microsoft Translator同事的官方认可答案。

是的,它经常发生,是的,它将影响结果模型中的概率。

那好吗? 要视情况而定。

是的,由于不同的上下文(尤其是在短字符串上)会导致目标端冲突,但也经常有其他原因,并且存在不合理的不一致之处。

最好实际查看目标端的冲突,并根据冲突的类型和场景(整体数据集,期望的行为和通用行为)做出执行决策系统。

在某些情况下,训练数据中的目标方冲突是可取的或无害的,但至少在某些情况下,这是有害的或权衡取舍。

例如,缺少重音符号,错误的编码,讨厌的隐藏字符或其他非人类可读的差异,例如双角括号,冲突的语言环境,未翻译的句段,更新样式准则等,大多数都是有害的冲突。一种变体可能是本地化单元,而另一种则没有。而且,经常有一种变体就是不好的翻译。

通常,这些直接冲突(即具有相同确切来源的句段之间的冲突,可以通过简单的脚本找到)是关于更广泛的数据集中冲突的线索-除非您知道什么,否则很难找到您正在寻找。

在更多的1:1翻译和翻译之间,在准确性和流利度之间存在折衷。前者的名字不好,但风险较小且更可靠。

决策可能是删除,解析或规范化,或者是调试数据集和数据管道。

只需将所有内容扔进黑匣子,并在Manning和Schütze1999的《我们信任的深度学习》中抱怨三遍,那么只有在规模(训练定制模型的频率而不是数量)上才有意义培训数据的数量如此之高,以至于无法进行基本的尽职调查。

要真正知道,您可能需要训练有无冲突的系统,并进行评估和比较。

另一方面,源侧的噪声和冲突甚至不是真正的冲突,通常是安全的,甚至可以包括在内。他们仍然值得一看。