问题描述
我需要至少 3/4 种不同的 tts 语音,但不幸的是我只有一种语音。
这是因为我只有一个意大利神经语音(Diego),其他都是标准语音,质量差很多。
最终目标是为至少 3/4 人创建一个画外音,我不能使用某些精确的声音。
出于这个原因,我喜欢创建一些由我仅有的一种神经声音开始的变体,给人一种其他人的声音的印象,所有这些都没有显得不自然。
实际上我有 Adobe Audition、Audacity、Ircam Trax、ffmpeg,除此之外,我可以将 SSML 与 API(在本例中为 microsoft Azure)一起使用。
我不知道有什么效果以及在不损害声音的情况下使用它的措施。
简而言之,如果我会获得更好的结果,我会问使用我拥有的软件或其他软件的最佳方法是什么。
谢谢!
解决方法
你使用什么语言?如果您使用英语,我相信您可以找到超过 3-4 种神经语音。有 en-US、en-GB、en-CA、en-AU 神经语音,所有声音都很自然。
您还可以使用 SSML 调整音高,使声音听起来不同。
如果您想创建不同的声音,请使用您的语音数据(或您的语音天赋)尝试 customvoice.ai。
或者,您正在寻找的特定“差异”是什么?