我们应该在训练/测试拆分之前还是之后对文本数据进行预处理?

问题描述

我已经阅读了许多有监督的文本分类教程,并且为我的数据实现了tidytext,qunateda,tm,text2vec,RTextTools。 直到现在,我还有一个未解之谜 。对于何时标记文本数据似乎没有达成共识。 火车测试拆分之前还是之后?。在一篇有关堆栈溢出的文章中,有人认为在拆分之前对令牌进行标记甚至是非法的。使用dfm_match函数,quanteda包看起来像是设计为在拆分数据后进行令牌化的。其他人建议在预处理后进行拆分。我看过Julia Silge和Emil Hvitfeldt的精彩教程。
对我来说,如果我在拆分之前进行了预处理步骤,它将为我节省很多代码行。但是,有什么风险?数据泄漏还是什么?有没有证据将两者在分类性能,有效性等方面进行比较?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)