用于语音分类的CNN预测真假

问题描述

所以我试图制作一个语音分类器,挑战是预测说话的人是我还是其他人,我已经构建了一个简单的代码将 .wav 文件转换为数组,所以我所有的音频数据集我说话的文件将被转换成数组,问题是我是一个初学者,我不知道如何只使用一个变量来预测(我的声音),就像说对或错,我怎么能做一个神经网络( CNN) 那样工作吗?

或者我应该使用其他类型的机器学习吗?而不是深度学习? 我想在这个项目中使用深度学习。

解决方法

CNN 也非常适合这一点。您应该使用一维卷积,并设置多个过滤器来处理您的数据。您的卷积将仅在时间维度上移动,而不是 2D 移动窗口。

在这种情况下,使用原始音频信号可能比使用频率值更好。因为您将使用卷积,所以神经网络可以简单地学习如何确定频率(毕竟傅立叶变换就是这样做的)。

Keras 有 Conv1D 层可以做到这一点。

您应该尝试使用移动窗口的步幅和大小来尝试获得最佳结果。