即使使用训练数据测试监督模型，结果也很差为什么？

我已经使用Keras Functional API创建了一个集成模型。该模型是由常规多层NN串联而成的LSTM。

该模型旨在接受两种输入，时间序列数据和一些定标器输入。 LSTM部分接收时间序列输入数据，其时间输出将馈送到多层NN的输入层。定标器数据直接馈送到多层NN的输入层。使用softmax层，模型输出只是0或1的二进制分类。

开始时，我使用样本外测试集获得了较差的预测结果。然后，我决定通过使用训练数据进行测试来验证该模型是否得到了正确的训练。

我很惊讶地发现，即使使用训练数据进行测试，预测结果仍然很差，而且我经常出现极端过拟合的情况，即模型最终总是给出1或0。

这个启示告诉我什么样的问题？我必须采取什么纠正措施？什么要纠正？

这是为了回答Ather Cheema的问题。我无法发布代码，因为它很长。在回头查看整个设计和代码之前，我正在寻找可能出什么问题的想法。

这张照片是培训和验证图表。对我来说，它看起来很平稳，我会尽早停止。仅仅是预测（使用样本外测试数据或训练数据）是很差的。