我可以在文本分类模型中添加一层元数据吗?

问题描述

我正在尝试创建一个多类分类器,以从一群国会议员中识别Facebook帖子的主题

我正在使用SimpleTransformers来组合基于XML-RoBERTa的分类模型。有什么方法可以添加带有元数据的嵌入层来改善分类器? (例如,将政党以及文字本身添加到每个Facebook帖子中。)

解决方法

如果您有很多训练数据,我建议将元数据添加到输入字符串中(可能用[SEP]分隔为另一句话),然后训练分类。如果您有足够的训练示例(我的猜测是数以万计就足够了),该模型肯定足够强大,可以学习元数据如何与输入语句进行交互。

如果您没有足够的数据,我建议仅运行XLM-RoBERTa来获取功能,独立地嵌入元数据,连接功能并使用多层感知器进行分类。可能这是不可能的SimpleTransformers,但是如果您直接在PyTorch中编写分类代码,那么使用Huggingface的Transformers应该非常容易。