AWS Polly SSML标记与音频不匹配

问题描述

我需要合并两个短语。一种常见，另一种-带有玩家的名字。

常用短语如下：

<speak>
    Come on,<mark name="start_playername"/>PlayerName<mark name="end_playername"/>,you
</speak>

当我要求标记该短语时，我得到了：

[
    {
        "time": 555,"type": "ssml","start": 16,"end": 47,"value": "start_playername"
    },{
        "time": 1005,"start": 57,"end": 86,"value": "end_playername"
    }
]

计划是在每个“ start_playername”标记处暂停主要声音，播放播放器名称的声音，然后从最近的“ end_playername”标记处继续播放主要声音。

标记与音频不匹配，结果非常难看。标记不会像预期的那样切断整个单词 PlayerName 。取而代之的是仅剪切 Pla ，并保留 erName 。

我在Audacity中重新组合了这种情况以展示问题：

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

amazon-polly amazon-web-services audio audio ssml text-to-speech