问题描述
我使用了Transformer模型进行图像字幕,该模型将图像作为输入,然后进行了一些卷积层处理,然后将结果转换为单个序列,并将此序列馈送到Transformer,它将输出另一个具有一定长度的序列,该序列将成为该图像的标题。 但是问题是,当我根据Tensorflow的Transformer文档训练该模型时,我获得了85%的准确度,但是如果我对来自互联网的单个图像输入运行该模型,则无论您输入什么内容,它都会为所有图像生成相同的输出。 有人可以解决这个问题吗?
Colab链接:https://colab.research.google.com/drive/1_IgCJHeJBvW70qfdYoQ9NwnYxebtGCZK?usp=sharing
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)