Meta推出语音生成人工智能模型Voicebox

【资料图】

Meta开发了一种尖端的生成人工智能模型“Voicebox”，旨在彻底改变语音生成领域。

“我们开发了 Voicebox，这是第一个可以泛化到语音生成任务的模型，它没有经过专门训练来以最先进的性能完成，”Meta 在一篇博文中说。

据该公司称，Voicebox 可以生成各种样式的图像和文本，并且可以从头开始创建输出或修改提供给它的样本。

然而，Voicebox 不是创建图片或一段文本，而是生成高质量的音频剪辑。

该模型支持英语、法语、德语、西班牙语、波兰语和葡萄牙语等六种语言的语音合成，并执行噪声去除、内容编辑、风格转换和多样化样本生成。

此外，Meta 表示 Voicebox 使用一种新方法仅从原始音频和随附的转录中学习。

与音频生成的自回归模型不同，Voicebox 可以修改给定样本的任何部分，而不仅仅是给定音频剪辑的末尾。

此外，这家科技巨头表示，Voicebox 经过训练，可以在给定周围语音和片段的文字记录的情况下预测语音片段。

一旦模型学会了从上下文中填充语音，它就可以应用于广泛的语音生成任务，包括生成录音的部分内容，而无需重新创建整个录音。

这种多功能性使 Voicebox 能够在各种任务中表现良好，包括上下文文本到语音合成、跨语言风格转换、语音去噪和编辑以及多样化的语音采样。