watson 语音到文本:无法转码数据流应用程序/八位字节流 -> 音频/x-float-array

问题描述

我正在尝试使用他们的 golang SDK 将 voip 调用中的原始 rtp 流发送到 IBM watson(speech-to-text) api,但得到的响应低于他们的回复

"error": "unable to transcode data stream application/octet-stream -> audio/x-float-array "

通过查看旧问题,他们似乎无法将数据识别为有效的音频源。

我正在使用带有以下标题的模型 en-US_NarrowbandModel

headers.Set("Content-Type","audio/mulaw;rate=8000;channels=1")
headers.Set("transfer-encoding","chunked")

rtp 数据包使用 PCMU 编码,采样率为 8000。来自 sdp

m=audio 4000 RTP/AVP
a=rtpmap:0 PCMU/8000

我什至尝试将 endianness 设置为小端和大端,但无济于事。

相同的设置在 python sdk 中工作,它们允许您使用流功能。 我想知道是否遗漏了 watson golang sdk 版本中的某些内容

任何指针将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)