创建文本到语音语音变体的最佳方法

我需要至少 3/4 种不同的 tts 语音，但不幸的是我只有一种语音。

这是因为我只有一个意大利神经语音（Diego），其他都是标准语音，质量差很多。

最终目标是为至少 3/4 人创建一个画外音，我不能使用某些精确的声音。

出于这个原因，我喜欢创建一些由我仅有的一种神经声音开始的变体，给人一种其他人的声音的印象，所有这些都没有显得不自然。

实际上我有 Adobe Audition、Audacity、Ircam Trax、ffmpeg，除此之外，我可以将 SSML 与 API（在本例中为 microsoft Azure）一起使用。

我不知道有什么效果以及在不损害声音的情况下使用它的措施。

简而言之，如果我会获得更好的结果，我会问使用我拥有的软件或其他软件的最佳方法是什么。

谢谢！

你使用什么语言？如果您使用英语，我相信您可以找到超过 3-4 种神经语音。有 en-US、en-GB、en-CA、en-AU 神经语音，所有声音都很自然。

您还可以使用 SSML 调整音高，使声音听起来不同。

如果您想创建不同的声音，请使用您的语音数据（或您的语音天赋）尝试 customvoice.ai。

或者，您正在寻找的特定“差异”是什么？