问题描述
我需要使用一些转录服务来转录语音。我使用 AWS transcribe 获得了非常好的结果。但我也需要知道哪个人说了什么。这可以通过 AWS transcribe 实现吗?我找不到任何关于此的信息。
例如。我现在得到的是
演讲者 1:你好,你好吗?
发言人 2:我很好,你好吗?
扬声器 1:很好...
我想得到的是能够知道谁是发言人 1 和 2。例如通过上传样本
鲍勃:你好,你好吗?
爱丽丝:我很好,你好吗?
鲍勃:很好...
这可以通过 AWS 实现吗?
解决方法
有两种方法:
- 使用多个声道(例如左右音频)来分隔扬声器。这对于使用两个不同扬声器的电话很有用。请参阅:Transcribing multi-channel audio - Amazon Transcribe
- 通过分类识别说话者,请参阅:Identifying speakers (speaker diarization) - Amazon Transcribe
这些将识别单独的说话者。但是,您不能上传“样本”然后识别特定发言人。