【资料图】
Meta开发了一种尖端的生成人工智能模型“Voicebox”,旨在彻底改变语音生成领域。
“我们开发了 Voicebox,这是第一个可以泛化到语音生成任务的模型,它没有经过专门训练来以最先进的性能完成,”Meta 在一篇博文中说。
据该公司称,Voicebox 可以生成各种样式的图像和文本,并且可以从头开始创建输出或修改提供给它的样本。
然而,Voicebox 不是创建图片或一段文本,而是生成高质量的音频剪辑。
该模型支持英语、法语、德语、西班牙语、波兰语和葡萄牙语等六种语言的语音合成,并执行噪声去除、内容编辑、风格转换和多样化样本生成。
此外,Meta 表示 Voicebox 使用一种新方法仅从原始音频和随附的转录中学习。
与音频生成的自回归模型不同,Voicebox 可以修改给定样本的任何部分,而不仅仅是给定音频剪辑的末尾。
此外,这家科技巨头表示,Voicebox 经过训练,可以在给定周围语音和片段的文字记录的情况下预测语音片段。
一旦模型学会了从上下文中填充语音,它就可以应用于广泛的语音生成任务,包括生成录音的部分内容,而无需重新创建整个录音。
这种多功能性使 Voicebox 能够在各种任务中表现良好,包括上下文文本到语音合成、跨语言风格转换、语音去噪和编辑以及多样化的语音采样。