在Fugatto开发中,NVIDIA的研究团队面临了一个困难的挑战,即找出语音和语言之间的重要关系。传统的语言模型能够从文本数据本身推断出各种指示的处理方式,而从语音数据中概括其特性和性质是非常困难的。
为了解决这一问题,研究团队采用了独特的多层学习方法。首先,利用大规模语言模型生成Python脚本,创建各种音频“人物”描述的模板化和自由格式的指示语句。其中包括各种特性,如“标准的”、“面向年轻人的”、“面向30多岁的”、“专业”的特性。此外,生成了绝对指示,如“合成明亮的声音”,以及相对指示,如“增加此声音的明亮度”。
在构建训练数据集方面,采用了创新方法。利用现有的语音理解模型创建训练片段的“合成字幕”,并用自然语言量化特征,如性别、情绪、声音质量。此外,利用声学处理工具对基本频率分散和混响等音频特性进行了量化。