问题描述
我想通过机器学习(分类和聚类)并通过相关性、相似性计算来处理声音(语音)文件。出于所有这些目的,我需要像往常一样应用某种特征提取。我选择了 librosa 库的 MFCC:
import librosa
y,sr = librosa.core.load(filename)
m = librosa.feature.mfcc(y=y,sr=sr)
现在,有了 m
作为提取特征,我面临着多个问题:
-
与我的预期相反,MFCC 返回二维数组而不是通常需要的一维数组 上面提到的分析方法。我应该坚持这种方法,并尝试以某种方式将 2D 转换为 1D(展平数组或平均行),还是存在更好的替代方法?
-
由于长音自然不同,MFCC 阵列的第二维有所不同。我该怎么处理这件事?截断/填充第二维以获得相同的数组?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)