问题描述
假设我已经预处理了一些文本数据,删除了停用词,URL等。
我应该如何构造这些清除的数据,以使其可用于神经网络等分类器?有没有首选的结构或经验法则? (一句话,tf-idf还是其他?)此外,您能建议一些可以自动完成python中所有工作的软件包吗?
现在我训练模型,一切正常。 该模型在测试集上也表现良好。
我该如何处理看不见的数据? 当我决定在现实生活中的项目中实现模型时,它将遇到新数据:我是否必须存储用于训练的结构(如tf-idf结构)并将其应用于这些新数据? 另外,我们假设在训练/验证/测试数据中没有单词“ hello”,因此它没有表示形式。我必须分类的现实生活中的句子包含“你好” 我该如何解决这个问题?
感谢所有澄清。
解决方法
您可以做什么使类和内部定义类似的功能
- 导入数据集
- 数据清理
- 数据预处理(BOW,TfIDf)
- 建立模型
- 预测
您可以从下面的代码中继续学习,以获得理解