苹果与英伟达合作加快代币生成
苹果,全球最大的公司(纳斯达克: AAPL )和英伟达(纳斯达克: NVDA ),两家公司今天宣布,他们已合作通过一种名为循环起草器(redrafter)的方法加快Nvidia GPU的大规模语言模型推断。Redrafter 使用递归神经网络 (RNN) 草稿模型,“将光束搜索与动态树注意力相结合,可加快 LLM 代币的生成速度,每个开源模型生成步骤最多可提高 3.5 个代币,超过传统推测解码技术的性能。”苹果我在今天的博客文章中提到了这一点。苹果与英伟达合作制作了 Redrafter Nvidia 的Tensorrt-LLM它已集成到.根据Nvidia的说法,这将使其可供更广泛的开发者社区使用。苹果表示:“当我们在NVIDIA GPU上对数百亿个参数生成模型进行基准测试并将NVIDIA Tensorrt-LLM推理加速框架与Redrafter一起使用时,我们能够通过贪婪的解码将每秒生成代币的速度提高2.7倍。”“这些基准测试结果表明,这项技术可以显著减少用户可能遇到的延迟,同时还可以减少使用的GPU数量和功耗。”“通过英伟达和苹果之间的这种合作,Tensorrt-LLM变得更加强大和灵活,LLM社区可以创新更复杂的模型,并使用Tensorrt-LLM轻松部署它们,从而在NVIDIA GPU上实现无与伦比的性能。”英伟达我提过了。
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。
更多信息13
パーマン6号 : 最强的双打队诞生了
像布罗迪·汉森队一样的标签
くどうのぶ : 强大的