仅通过查看 512 维通用句子编码器向量的特征,我们能否将胡言乱语与有意义的句子区分开来?

问题描述

Universal Sentence Encoder 将句子编码为包含 512 个特征的向量。我的主张是,如果一个句子是胡言乱语,那么大多数特征将非常接近于零。但是,如果一个句子有意义,那么 512 个特征中的一些特征将远大于或远小于零。那么我们能不能仅仅通过查看向量特征的权重分布来决定哪个向量编码意义,哪个向量编码胡言乱语?

解决方法

似乎 USE 以一种非常随意的方式对特征进行编码。我进行了大量实验,发现这些特征以任意方式放大和缩小,而不考虑句子是否是胡言乱语或有意义。实验包括计算有意义和乱码向量中的正面和负面特征的数量,找到特征的均值和标准分布。但没有任何模式可以描述两者。附上截图。

Below is the feature distribution for gibberish sentence vector and meaningful sentence vector

以下是示例 2。采集了更多的样本(大约 30 个),并且没有观察到正负特征、标准偏差和平均值的计数模式,这些模式可以将胡言乱语的 USE 向量与有意义的向量分开。 Sample