离散样本的 rms 和 dB 值问题

问题描述

我正在尝试通过我的 RaspBerryPi 4 上的 ALSA 项目在 c 中对 pcm-data 进行采样。记录东西就像一种魅力，但篡改样本本身让我感到困惑，特别是因为我已经在不同的项目 (ESP32) 上做了同样的事情。

将“缓冲区”视为每个会话大小不同的数组（ALSA 每次分配不同），其中包含存储为 8 位值（需要 int32_t 转换）的 32 位 44100Hz 离散音频样本。为了获得与一个缓冲区一样大的时间段的 dBFS 值，我认为将每个样本平方，将它们加在一起，除以样本数，得到 sqrt，除以 INT32_MAX 值并从中拉出 log10，最后乘以 20。一个标准的 rms，然后是 dBFS 计算：

uint32_t sum = 0;
int32_t* samples = (int32_t*)buffer;
for(int i = 0; i < (size / (BIT_DEPTH/8)); i ++){

    sum += (uint32_t)pow(samples[i],2);
}
double rms = sqrt(sum / (size / (BIT_DEPTH/8)));
int32_t decibel = (int32_t)(20 * log10(rms / INT32_MAX));
fprintf(stderr,"sum = %d\n",sum);
fprintf(stderr,"rms = %d\n",rms);
fprintf(stderr,"%d dBFS\n",decibel);

但是，对于有点安静的房间（打开的窗户）或麦克风旁边的扬声器，我得到了大约 -134 dBFS 的不变的真正安静的值，而不是合理的值。是的，增益很低，所以 -134 是可能的，但我更不明白的是当我打印出变量 sum 和 rms 时会发生什么：

buffersize: 262144
sum = -61773
rms = -262146
-138 dBFS

他们怎么可能是消极的？这可能是我目前看不到的经典 c-issue。

再次：将样本写入文件会产生高质量但低增益的 wav 文件（需要标头）。有什么帮助吗？谢谢。

解决方法

sum 是一个 uint32_t，但您正在使用 %d 打印它，它用于 int。产生的行为不是由 C 标准定义的。一个常见的结果是将高位设置为负数的值，但其他行为也是可能的。 unsigned int 的正确转换规范是 %u，但对于 uint32_t，您应该包括 <inttypes.h> 并使用 fprintf(stderr,"%" PRIu32 "\n",sum);。

此外，平方和总和可能会超出 uint32_t 中可以表示的范围，从而导致对模 2³² 进行包装。

rms 是一个 double，但是您还使用 %d 打印它，这是非常错误的。使用 %g、%f 或 %e，或对 double 进行某种其他转换，可能使用各种修饰符来选择格式选项。

使用 int32)_t decibel，%d 可能适用于某些 C 实现，但正确的方法是 fprintf(stderr,"%" PRId32 " dBFS\n",decibel);。

您的编译器应该至少警告您 double 格式问题。注意编译器警告并修复它们报告的问题。最好使用 -Werror 切换到 GCC 和 Clang 或 /WX 切换到 MSVC 将编译器警告升级为错误。

行 int32_t* samples = (int32_t*)buffer; 可能导致禁止的别名。请务必确定 buffer 的内存可能已定义为允许将其别名为 int32_t。如果不是，则 C 标准未定义该行为，应使用访问缓冲区的替代技术，例如将数据一次一个复制到 int32_t 对象中或复制到 {{ 1}}。

不要使用 int32_t 来计算平方，因为它很浪费（并且在涉及其他类型时会导致不准确）。对于您的类型，使用 pow 并将其称为 static inline uint32_t square(int32_t x) { return x*x; }。如果发生溢出，请考虑在计算平方和 square(samples[i]) 时使用 int64_t 计算总和。

audio audio c pcm pcm raspberry-pi sampling