如何用单词解释 doc2vec 分类器？

问题描述

我在 gensim 中针对属于几类的文档训练了一个 doc2vec (PV-DM) 模型。由于实际原因，我在非语言环境中工作，其中文档数量和唯一单词的数量都很小（~100 个文档，~100 个单词）。每个文档可能有 10k 个令牌。我的目标是证明 doc2vec 嵌入比简单的统计数据更能预测文档类别，并解释每个文档中的哪些词（或者可能是词序列等）表示类别。

与其他统计数据相比，在嵌入上训练的（交叉验证）分类器的性能良好，但我仍然不确定如何将分类器的结果与给定文档的任何特征联系起来。有没有标准的方法来做到这一点？我的第一个倾向是简单地将共同学习的词嵌入传递给文档分类器，以便查看哪些词占据了嵌入空间的哪个分类器分区区域。词嵌入输出的文档类在交叉验证拆分中非常一致，这令人鼓舞，尽管我不知道如何将这些有效标签转换为“文档 X 由于某些属性而得到标签 Y”的效果文档中的单词 A、B 和 C”。

另一个想法是查看词向量和文档向量之间的相似性。相似词向量的排序在随机种子和超参数中非常稳定，但这种标记的输出与前一种方法的输出完全不对应。

提前感谢您的帮助。

编辑：以下是一些澄清要点。 “文档”中的标记是有序的，并且它们是从离散值过程中测量的，我怀疑其状态从序列中的上下文中获取它们的“含义”，就像单词一样。只有少数几个类，通常在 3 到 5 个之间。文档被赋予唯一的标签，并且这些类不用于学习嵌入。嵌入有相当大的维度，总是

解决方法

与 Doc2Vec 的许多已发表作品相比，这是一个非常小的数据集（100 个文档）和词汇（100 个单词），后者通常使用数万或数百万个不同的文档。

每个文档都有数千个单词，并且您正在使用 PV-DM 模式，该模式将文档到单词和单词到单词的上下文混合在一起进行训练，这会有所帮助。我仍然希望您可能需要使用比默认值小的维度 (vector_size

您没有提到您有多少个类，也没有提到您使用的分类器算法，也没有提到已知类是否被混合到（通常是无监督的）Doc2Vec 训练模式中。

如果你只使用已知的类作为文档标签，而你的“少数”类只有 3 个，那么在某种程度上你只有 3 个独特的“文档”，你正在训练它们在片段中。仅使用“少数”独特的文档标签可能会过早地隐藏对下游分类器有用的数据的多样性。

另一方面，如果你给每个文档一个唯一的 ID——原始的“段落向量”论文方法，然后你将它们提供给下游分类器，这可以单独使用，但也可能受益除了每个文档的 ID 之外，还可以将已知类添加为额外的标签。（也许如果你有很多类，这些可能是唯一的文档标签。值得比较每种方法。）

我还没有看到使 Doc2Vec 模型可解释的具体工作，除了观察到当您使用一种模式同时训练 doc- 和 word- 向量时，doc-vectors 和 word-向量与单独的词向量具有相同的有用相似性/邻域/方向。

您可以简单地尝试创建合成文档，或者通过有针对性地删除/添加候选词来篡改真实文档的词，或者将具有强/正确分类器预测的文档混合在一起，看看有多少变化（a）他们的doc-vector,& 最近的其他 doc-vectors 或 class-vectors;或 (b) 任何下游分类器的预测/相对置信度。

（一段时间以来，Doc2Vec 的愿望清单功能是从文档向量合成伪文档。有关详细信息，请参阅 this issue，包括指向一个部分实现的链接。而仅仅是这些词的排名列表在自然语言中是无稽之谈，它可能会给 doc-vectors 带来一定的“生动性”。）

如果您不使用真正的自然语言，请记住一些有用的事情：

如果您的“文本”确实是无序的令牌袋，那么 window 可能不是一个真正有趣的参数。将它设置为一个非常大的数字是有意义的（基本上将所有单词放在彼此的窗口中），但考虑到您的大文档，可能不实用/不合适。或者，尝试使用 PV-DBOW - 甚至可能在 tags 或 words 中混合已知类和单词标记。
默认 ns_exponent=0.75 继承自 word2vec 和自然语言语料库，并且至少有一篇研究论文（从类文档链接）表明，对于其他应用程序，尤其是推荐系统，非常不同的值可能会有所帮助。

doc2vec gensim word-embedding word2vec