变压器模型在图像字幕问题上无法正常工作

问题描述

我使用了Transformer模型进行图像字幕，该模型将图像作为输入，然后进行了一些卷积层处理，然后将结果转换为单个序列，并将此序列馈送到Transformer，它将输出另一个具有一定长度的序列，该序列将成为该图像的标题。但是问题是，当我根据Tensorflow的Transformer文档训练该模型时，我获得了85％的准确度，但是如果我对来自互联网的单个图像输入运行该模型，则无论您输入什么内容，它都会为所有图像生成相同的输出。有人可以解决这个问题吗？

Colab链接：https://colab.research.google.com/drive/1_IgCJHeJBvW70qfdYoQ9NwnYxebtGCZK?usp=sharing

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

deep-learning nlp tensorflow transformer