我们应该在训练/测试拆分之前还是之后对文本数据进行预处理？

问题描述

我已经阅读了许多有监督的文本分类教程，并且为我的数据实现了tidytext，qunateda，tm，text2vec，RTextTools。 直到现在，我还有一个未解之谜 。对于何时标记文本数据似乎没有达成共识。 火车测试拆分之前还是之后？。在一篇有关堆栈溢出的文章中，有人认为在拆分之前对令牌进行标记甚至是非法的。使用dfm_match函数，quanteda包看起来像是设计为在拆分数据后进行令牌化的。其他人建议在预处理后进行拆分。我看过Julia Silge和Emil Hvitfeldt的精彩教程。
对我来说，如果我在拆分之前进行了预处理步骤，它将为我节省很多代码行。但是，有什么风险？数据泄漏还是什么？有没有证据将两者在分类性能，有效性等方面进行比较？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

quanteda supervised-learning tidytext tm