関係性の比較学習には、同じテキストの異なる感情による読み上げや、異なる楽器による同じフレーズの演奏など、一つの要素を固定しながら他の要素を変化させるデータセットを活用した。この手法により、モデルは「より明るい」音声の特徴や、サックスフォンとフルートの音色の違いといった微妙な差異を学習することが可能となった。
この複雑な学習プロセスを経て構築された最終的なデータセットは、2,000万以上のサンプルと5万時間以上の音声データを含む膨大なものとなった。32基のNVIDIAテンソルコアを用いて訓練された2.5億パラメータのモデルは、様々な音声品質テストで信頼性の高いスコアを示している。