创建文本到语音语音变体的最佳方法

问题描述

我需要至少 3/4 种不同的 tts 语音,但不幸的是我只有一种语音。

这是因为我只有一个意大利神经语音(Diego),其他都是标准语音,质量差很多。

最终目标是为至少 3/4 人创建一个画外音,我不能使用某些精确的声音。

出于这个原因,我喜欢创建一些由我仅有的一种神经声音开始的变体,给人一种其他人的声音的印象,所有这些都没有显得不自然。

实际上我有 Adob​​e Audition、Audacity、Ircam Trax、ffmpeg,除此之外,我可以将 SSML 与 API(在本例中为 microsoft Azure)一起使用。

我不知道有什么效果以及在不损害声音的情况下使用它的措施。

简而言之,如果我会获得更好的结果,我会问使用我拥有的软件或其他软件的最佳方法是什么。

谢谢!

解决方法

你使用什么语言?如果您使用英语,我相信您可以找到超过 3-4 种神经语音。有 en-US、en-GB、en-CA、en-AU 神经语音,所有声音都很自然。

您还可以使用 SSML 调整音高,使声音听起来不同。

如果您想创建不同的声音,请使用您的语音数据(或您的语音天赋)尝试 customvoice.ai。

或者,您正在寻找的特定“差异”是什么?