使用不同大小的样本来训练LSTM以识别说话者

问题描述

我正在尝试使用一小部分声音作为LSTM的输入,以进行说话人识别。
问题在于每个语音样本的长度都不同。

输入到网络的频谱图是具有不同形状的矩阵
我尝试了批处理训练,批处理大小等于每个频谱图中的帧(子阵列)数。拟合模型时,我必须传递与频谱图中的帧数相同大小的标签向量。

因此,它基本上在每一帧上一次训练,并且丢失了时间信息。
你有什么建议?
如果需要,我可以提供更多详细信息。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)