为什么在训练翻译机之前经常从数据中删除诸如“”：[]之类的特殊字符？

我看到人们经常在训练翻译机之前从数据中删除特殊字符，例如（）“”：[]。您能为我解释这样做的好处吗？

执行日期清理或预处理，以便算法可以将重点放在重要的，在语言上有意义的“单词”，而不是“噪音”。参见"Removing Special Characters"：

众所周知，特殊字符是非字母数字字符。这些字符最常见于注释，参考文献，货币数字等。这些字符不会增加任何价值理解文本并将噪声引入算法。

每当这种噪声进入模型时，它都可以在推断时产生输出，其中包含这些意外字符（的序列），甚至会影响整体翻译。这是日语翻译中带方括号的常见情况。