用于语音分类的CNN预测真假

问题描述

所以我试图制作一个语音分类器，挑战是预测说话的人是我还是其他人，我已经构建了一个简单的代码将 .wav 文件转换为数组，所以我所有的音频数据集我说话的文件将被转换成数组，问题是我是一个初学者，我不知道如何只使用一个变量来预测（我的声音），就像说对或错，我怎么能做一个神经网络（ CNN) 那样工作吗？

或者我应该使用其他类型的机器学习吗？而不是深度学习？我想在这个项目中使用深度学习。

解决方法

CNN 也非常适合这一点。您应该使用一维卷积，并设置多个过滤器来处理您的数据。您的卷积将仅在时间维度上移动，而不是 2D 移动窗口。

在这种情况下，使用原始音频信号可能比使用频率值更好。因为您将使用卷积，所以神经网络可以简单地学习如何确定频率（毕竟傅立叶变换就是这样做的）。

Keras 有 Conv1D 层可以做到这一点。

您应该尝试使用移动窗口的步幅和大小来尝试获得最佳结果。

classification conv-neural-network deep-learning machine-learning python