问题描述
我正在尝试创建一个多类分类器,以从一群国会议员中识别Facebook帖子的主题。
我正在使用SimpleTransformers来组合基于XML-RoBERTa的分类模型。有什么方法可以添加带有元数据的嵌入层来改善分类器? (例如,将政党以及文字本身添加到每个Facebook帖子中。)
解决方法
如果您有很多训练数据,我建议将元数据添加到输入字符串中(可能用[SEP]
分隔为另一句话),然后训练分类。如果您有足够的训练示例(我的猜测是数以万计就足够了),该模型肯定足够强大,可以学习元数据如何与输入语句进行交互。
如果您没有足够的数据,我建议仅运行XLM-RoBERTa来获取功能,独立地嵌入元数据,连接功能并使用多层感知器进行分类。可能这是不可能的SimpleTransformers,但是如果您直接在PyTorch中编写分类代码,那么使用Huggingface的Transformers应该非常容易。