我可以在文本分类模型中添加一层元数据吗？

我正在尝试创建一个多类分类器，以从一群国会议员中识别Facebook帖子的主题。

我正在使用SimpleTransformers来组合基于XML-RoBERTa的分类模型。有什么方法可以添加带有元数据的嵌入层来改善分类器？（例如，将政党以及文字本身添加到每个Facebook帖子中。）

如果您有很多训练数据，我建议将元数据添加到输入字符串中（可能用[SEP]分隔为另一句话），然后训练分类。如果您有足够的训练示例（我的猜测是数以万计就足够了），该模型肯定足够强大，可以学习元数据如何与输入语句进行交互。

如果您没有足够的数据，我建议仅运行XLM-RoBERTa来获取功能，独立地嵌入元数据，连接功能并使用多层感知器进行分类。可能这是不可能的SimpleTransformers，但是如果您直接在PyTorch中编写分类代码，那么使用Huggingface的Transformers应该非常容易。