使用 librosa 和 Python 提取声音文件特征

问题描述

我想通过机器学习(分类和聚类)并通过相关性、相似性计算来处理声音(语音)文件。出于所有这些目的,我需要像往常一样应用某种特征提取。我选择了 librosa 库的 MFCC:

import librosa

y,sr = librosa.core.load(filename)
m = librosa.feature.mfcc(y=y,sr=sr)

现在,有了 m 作为提取特征,我面临着多个问题:

  1. 与我的预期相反,MFCC 返回二维数组而不是通常需要的一维数组 上面提到的分析方法。我应该坚持这种方法,并尝试以某种方式将 2D 转换为 1D(展平数组或平均行),还是存在更好的替代方法

  2. 由于长音自然不同,MFCC 阵列的第二维有所不同。我该怎么处理这件事?截断/填充第二维以获得相同的数组?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)