使用 librosa 和 Python 提取声音文件特征

我想通过机器学习（分类和聚类）并通过相关性、相似性计算来处理声音（语音）文件。出于所有这些目的，我需要像往常一样应用某种特征提取。我选择了 librosa 库的 MFCC：

import librosa

y,sr = librosa.core.load(filename)
m = librosa.feature.mfcc(y=y,sr=sr)

现在，有了 m 作为提取特征，我面临着多个问题：

与我的预期相反，MFCC 返回二维数组而不是通常需要的一维数组上面提到的分析方法。我应该坚持这种方法，并尝试以某种方式将 2D 转换为 1D（展平数组或平均行），还是存在更好的替代方法？
由于长音自然不同，MFCC 阵列的第二维有所不同。我该怎么处理这件事？截断/填充第二维以获得相同的数组？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）