问题描述
|
我正在用Java实现MFCC算法。
在此处有一个示例代码:Matlab的http://www.ee.columbia.edu/~dpwe/muscontent/practical/mfcc.m。但是,我在梅尔过滤器存储过程中遇到一些问题。如何生成三角形窗口以及如何使用它们?
PS1:包含描述MFCC的部分的文章:http://arxiv.org/pdf/1003.4083
PS2:如果基本上有关于MFCC算法步骤的文档,那会很好。
PS3:我的主要问题与此有关:带有Java线性和对数滤波器的MFCC,某些实现同时使用线性和对数滤波器,而某些实现则不使用。那是什么过滤器,什么是中心频繁概念。我遵循以下代码:MFCC Java,该代码之间有什么区别:MFCC Matlab
解决方法
三角形窗口作为频带滤波器并不难实现。您基本上想在每个频带(定义为中心频率
i-1
和中心频率i+1
之间的频率空间)内积分FFT数据。
您基本上是在寻找类似的东西,
for(int bandIdx = 0; bandIdx < numBands; bandIdx++) {
int startFreqIdx = centerFreqs[bandIdx-1];
int centerFreqIdx = centerFreqs[bandIdx];
int stopFreqIdx = centerFreqs[bandIdx+1];
for(int freq = startFreqIdx; i < centerFreqIdx; i++) {
magnitudeScale = centerFreqIdx-startFreqIdx;
bandData[bandIdx] += fftData[freq]*(i-startFreqIdx)/magnitudeScale;
}
for(int freq = centerFreqIdx; i <= stopFreqIdx; i++) {
magnitudeScale = centerFreqIdx-stopFreqIdx;
bandData[bandIdx] += fftData[freq]*(i-stopFreqIdx)/magnitudeScale;
}
}
如果您不了解“中心频率”或“频带”或“滤波器”的概念,请阅读基本信号教科书-您不应该在不了解什么的情况下实现该算法是的。
至于确切的中心频率是多少,则取决于您。实验并选择(或在出版物中找到)可以捕获要与数据隔离的信息的值。没有确定的值,甚至没有值的比例,是因为该算法试图逼近人耳,这是一种非常复杂的收听设备。一种音阶可能更适合说,例如语音,另一种音阶可能更适合音乐,等等。这取决于您自己选择什么。
,第二个PS的答案:我发现本教程确实帮助我计算了MFCC。
至于三角形窗口和滤波器组,据我所知,它们确实重叠,它们不会扩展到负频率,并且从FFT频谱计算它们并将其应用回去的整个过程如下:
选择滤波器的最小和最大频率(例如,最小频率= 300Hz-最小语音频率和最大频率=您的采样率/2。也许这是您应该选择的1000Hz极限)
根据所选的最小和最大频率计算mel值。公式在这里。
计算这两个mel值之间的N个等距值。 (我已经看到了N的不同值的示例,您甚至可以在本文中找到针对不同值的效率比较,对于我的测试,我选择了26个)
将这些值转换回Hz。 (您可以在同一Wiki页面上找到该公式)=> N + 2个过滤器值的数组
为每个三个连续的值计算一个滤波器组(滤波器三角形),或者上面的托马斯建议(谨慎使用索引),或者像本文开头建议的建议那样)=>一个数组数组,大小为NxM,假设您的FFT返回2 * M的值,并且您仅使用M。
将整个功率谱(从FFT获得的M值)通过每个三角滤波器,以获得每个滤波器的“滤波器组能量”(对于每个滤波器组(N个环路),将FFT后获得的每个幅度乘以相应滤波器组中的每个值(M个循环),然后将获得的M个值相加)=> N个大小的能量数组。
这些是您的滤波器组能量,您可以进一步应用对数,应用DCT并提取MFCC。