问题描述
我看到人们经常在训练翻译机之前从数据中删除特殊字符,例如()“”:[]。您能为我解释这样做的好处吗?
解决方法
执行日期清理或预处理,以便算法可以将重点放在重要的,在语言上有意义的“单词”,而不是“噪音”。参见"Removing Special Characters":
众所周知,特殊字符是非字母数字字符。 这些字符最常见于注释,参考文献, 货币数字等。这些字符不会增加任何价值 理解文本并将噪声引入算法。
每当这种噪声进入模型时,它都可以在推断时产生输出,其中包含这些意外字符(的序列),甚至会影响整体翻译。这是日语翻译中带方括号的常见情况。