处理来自Twilio的音频流的ActionCable出现问题,“在...中收到无法识别的命令”

问题描述

我最近启动了一个需要实时语音识别的项目,该项目使用了Google的“语音到文本”和Twilio的API(虚拟电话服务)。

总体概述是,在使用Twilio进行虚拟电话呼叫期间,呼叫的音频流被派生并定向到在我的rails应用程序中处理的Websocket URL,URL应实时接收此音频流并最终将其发送给语音发送文本API以接收成绩单,并将其发送到某人的浏览器以进行显示

因此,这几乎就像在电话通话中显示字幕一样,在该通话中,呼叫者可以实时看到正在说的文字

我找不到任何有效的文档来说明如何使用rails来实现这一目标...但是似乎有很多简单的方法可以用其他语言来实现它。

仅作为示例,这实际上是一个2分钟的阅读教程,其中包含我需要的所有内容,但是使用node js完成了。我将放置链接,因为我认为它会或多或少地阐明我想做的事情,以防万一我对自己的解释不够充分:

https://www.twilio.com/blog/live-transcribing-phone-calls-using-twilio-media-streams-and-google-speech-text

万一您想跳过那件事而只是想吃点东西,这是我需要在导轨中复制的那张截图:

Node JS Example

因此,在没有太多指导的情况下,我尝试自己实现此功能,只是将流指向我的websocket url,类似于屏幕截图中的操作。我能够通过初始握手(使用ngrok传送我的本地主机btw),但是我在处理音频流中接收到的数据方面遇到了困难。我找不到访问该原始数据流的方法,因此,我什至无法做一些简单的事情,例如根据“事件类型”键决定要做什么。似乎action_cable需要以非常特定的格式流式传输数据,否则它会中断,因为在进行所有设置后,从websocket流式传输开始,我一直遇到相同的错误

只要通话持续,它将以下内容打印到控制台上。

Console Error

这个过程一直持续到我通话结束,所以很明显,音频流数据是以某种方式编码的,这正是我所需要的。除非这是作为错误日志的一部分打印的。

我能够在action_cable源代码中跟踪出现此错误的确切代码。如您在屏幕快照中所见,有一个case语句引发了错误,因为接收到的数据与任何预定义的方案都不匹配。那时数据应该是一个字符串,但不是我得到的是我刚刚发布的这个大json。

ActionCable Source Code Exception

是否可以使用rails进行我所描述的操作(我拒绝接受这是不可能的,必须有一种方法!)。如果是这样,有人可以向我指出正确的方向,帮助我了解我在做错什么。

谢谢!

更新:

忘了提及我在Twilio的官方演示页面上找到了此示例应用程序。它完全满足了我使用Rails所需的功能,但是它使用了一个名为Tubesock的gem,因为Rails现在改为使用ActionCable,因此不再需要维护。

下面是相关代码的简短片段:

    class ChatController < ApplicationController
      include Tubesock::Hijack

      def chat
        hijack do |tubesock|
          tubesock.onopen do
            tubesock.send_data "Hello,friend"
          end

          tubesock.onmessage do |data|
            tubesock.send_data "You said: #{data}"
          end
        end
      end
    end

您可以看到,它非常简单,它充当中间角色,允许我在传递数据之前对其进行修改,当某些事件触发时,例如“打开连接”或“接收消息”。

所以,这绝对有可能,问题是,ActionCable为什么不支持这种功能

还有其他类似的库吗?

如果您想看一下,我会留下相关链接

https://github.com/twilio/media-streams/tree/dc8fbed6f32c452a7baa6c35b3439e8401b19821/ruby/rails-controller

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)