为什么在训练翻译机之前经常从数据中删除诸如“”:[]之类的特殊字符?

问题描述

我看到人们经常在训练翻译机之前从数据中删除特殊字符,例如()“”:[]。您能为我解释这样做的好处吗?

解决方法

执行日期清理或预处理,以便算法可以将重点放在重要的,在语言上有意义的“单词”,而不是“噪音”。参见"Removing Special Characters"

众所周知,特殊字符是非字母数字字符。 这些字符最常见于注释,参考文献, 货币数字等。这些字符不会增加任何价值 理解文本并将噪声引入算法。

每当这种噪声进入模型时,它都可以在推断时产生输出,其中包含这些意外字符(的序列),甚至会影响整体翻译。这是日语翻译中带方括号的常见情况。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...