使用CNN和Librosa进行语音识别：我可以将MFCC和音频数据结合起来吗？

问题描述

我正在构建CNN，用于与Librosa进行语音识别。我已经为每个音频文件提取了MFCC，并对音频数据进行了预处理。音频数据的尺寸为（93894，8000），而MFCC的尺寸为（93894，26，16）。由于它们的大小不同，我无法将它们输入相同的模型。我可以创建单独的模型，一些1D接收音频数据，一些2D接收MFCC，然后看看哪种模型效果最好。但是我希望将它们全部输入相同的模型中。有没有办法做到这一点？压平MFCC有意义吗？

解决方法

如果没有集成架构，就不可能将不同维度的数据输入到同一个神经网络中。我创建了不同的网络来处理 MFCC 和原始音频数据，就其价值而言，仅在 MFCC 上运行的模型更加高效和准确。

audio audio cnn dimensions dimensions librosa mfcc