变压器模型在图像字幕问题上无法正常工作

问题描述

我使用了Transformer模型进行图像字幕,该模型将图像作为输入,然后进行了一些卷积层处理,然后将结果转换为单个序列,并将此序列馈送到Transformer,它将输出一个具有一定长度的序列,该序列将成为该图像的标题。 但是问题是,当我根据Tensorflow的Transformer文档训练该模型时,我获得了85%的准确度,但是如果我对来自互联网的单个图像输入运行该模型,则无论您输入什么内容,它都会为所有图像生成相同的输出。 有人可以解决这个问题吗?

Colab链接https://colab.research.google.com/drive/1_IgCJHeJBvW70qfdYoQ9NwnYxebtGCZK?usp=sharing

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)