离散样本的 rms 和 dB 值问题

问题描述

我正在尝试通过我的 RaspBerryPi 4 上的 ALSA 项目在 c 中对 pcm-data 进行采样。记录东西就像一种魅力,但篡改样本本身让我感到困惑,特别是因为我已经在不同的项目 (ESP32) 上做了同样的事情。

将“缓冲区”视为每个会话大小不同的数组(ALSA 每次分配不同),其中包含存储为 8 位值(需要 int32_t 转换)的 32 位 44100Hz 离散音频样本。为了获得与一个缓冲区一样大的时间段的 dBFS 值,我认为将每个样本平方,将它们加在一起,除以样本数,得到 sqrt,除以 INT32_MAX 值并从中拉出 log10,最后乘以 20。一个标准的 rms,然后是 dBFS 计算:

uint32_t sum = 0;
int32_t* samples = (int32_t*)buffer;
for(int i = 0; i < (size / (BIT_DEPTH/8)); i ++){

    sum += (uint32_t)pow(samples[i],2);
}
double rms = sqrt(sum / (size / (BIT_DEPTH/8)));
int32_t decibel = (int32_t)(20 * log10(rms / INT32_MAX));
fprintf(stderr,"sum = %d\n",sum);
fprintf(stderr,"rms = %d\n",rms);
fprintf(stderr,"%d dBFS\n",decibel);

但是,对于有点安静的房间(打开的窗户)或麦克风旁边的扬声器,我得到了大约 -134 dBFS 的不变的真正安静的值,而不是合理的值。是的,增益很低,所以 -134 是可能的,但我更不明白的是当我打印出变量 sum 和 rms 时会发生什么:

buffersize: 262144
sum = -61773
rms = -262146
-138 dBFS

他们怎么可能是消极的?这可能是我目前看不到的经典 c-issue。

再次:将样本写入文件会产生高质量但低增益的 wav 文件(需要标头)。有什么帮助吗?谢谢。

解决方法

sum 是一个 uint32_t,但您正在使用 %d 打印它,它用于 int。产生的行为不是由 C 标准定义的。一个常见的结果是将高位设置为负数的值,但其他行为也是可能的。 unsigned int 的正确转换规范是 %u,但对于 uint32_t,您应该包括 <inttypes.h> 并使用 fprintf(stderr,"%" PRIu32 "\n",sum);

此外,平方和总和可能会超出 uint32_t 中可以表示的范围,从而导致对模 232 进行包装。

rms 是一个 double,但是您还使用 %d 打印它,这是非常错误的。使用 %g%f%e,或对 double 进行某种其他转换,可能使用各种修饰符来选择格式选项。

使用 int32)_t decibel%d 可能适用于某些 C 实现,但正确的方法是 fprintf(stderr,"%" PRId32 " dBFS\n",decibel);

您的编译器应该至少警告您 double 格式问题。注意编译器警告并修复它们报告的问题。最好使用 -Werror 切换到 GCC 和 Clang 或 /WX 切换到 MSVC 将编译器警告升级为错误。

int32_t* samples = (int32_t*)buffer; 可能导致禁止的别名。请务必确定 buffer 的内存可能已定义为允许将其别名为 int32_t。如果不是,则 C 标准未定义该行为,应使用访问缓冲区的替代技术,例如将数据一次一个复制到 int32_t 对象中或复制到 {{ 1}}。

不要使用 int32_t 来计算平方,因为它很浪费(并且在涉及其他类型时会导致不准确)。对于您的类型,使用 pow 并将其称为 static inline uint32_t square(int32_t x) { return x*x; }。如果发生溢出,请考虑在计算平方和 square(samples[i]) 时使用 int64_t 计算总和。