share_log

挑战Transformer!液态AI,了解一下

华尔街见闻 ·  16:41

在一项基准测试中,Liquid AI开发的LFM模型跑赢了Meta和微软的流行模型,同时需要的内存更少。该公司推出的STAR新框架在与混合模型相比实现了高达37%的缓存大小减少,与Transformers相比则减少了90%。

刚刚,一家名为Liquid AI(液态AI)的生成式人工智能初创公司宣布,完成一轮价值2.5亿美元的早期融资,由芯片巨头AMD领投。

这项投资将支持Liquid AI进一步开发其Liquid Foundation模型(LFM),这是一种面向企业的轻量级、通用AI模型,旨在挑战传统的基于云端的AI模型,如OpenAI、亚马逊AWS和谷歌云。

液态神经网络:受大脑启发的创新

Liquid AI的LFM与传统基于变换器的模型架构不同,它们基于“液态神经网络”,这是一种受大脑启发的系统,即使在训练后也能保持适应性和鲁棒性(稳定力)。

这些模型非常适合处理大量顺序多模态数据,包括视频、音频、文本、时间序列和信号。在MMLU-Pro基准测试中,Liquid AI的LFM模型跑赢了Meta和微软的流行模型,同时需要的内存更少。

LFM具备多语言能力,包括西班牙语、法语、德语、中文、阿拉伯语、日语和韩语。此外,这些模型正在为英伟达、AMD、高通和苹果的硬件进行优化。

LFM有三个模型可供选择:LFM-1B适合资源受限的环境,LFM-3B优化了边缘部署,而LFM-40B专家混合模型(MoE)则设计用于复杂任务。 这些模型在知识容量、多步推理、长上下文回忆、推理效率和训练效率方面表现出色。

STAR,专注性能与效率的平衡

Liquid AI还推出了一种能够自动生成和优化AI模型架构的新框架(STAR,定制架构合成)。STAR 框架利用进化算法和数字编码系统来解决深度学习模型中平衡质量和效率的复杂挑战。

根据Liquid AI的研究团队(包括 Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli 和 Michael Poli)的说法,STAR的方法代表着传统建筑设计方法的转变。

STAR不依赖于手动调整或预定义模板,而是使用分层编码技术(称为“STAR 基因组”)来探索架构的广阔设计空间。这些基因组支持重组和突变等迭代优化过程,使得STAR能够合成和改进针对特定指标和硬件要求的架构。

Liquid AI对STAR的最初关注点是自回归语言建模,而传统的Transformer架构长期以来一直占据主导地位。

在研究期间进行的测试中,Liquid AI研究团队展示了STAR生成架构的能力,其性能始终优于高度优化的 Transformer++架构和混合模型。

例如,在优化质量和缓存大小时,STAR演化架构与混合模型相比实现了高达37%的缓存大小减少,与Transformers相比则减少了90%。尽管效率有所提高,但STAR生成的模型仍保持甚至超过了同类模型的预测性能。

类似地,在优化模型质量和大小时,STAR将参数数量减少了多达13%,同时仍提高了标准基准测试的性能。

该研究还强调了STAR扩展其设计的能力。STAR演化模型的参数从1.25亿扩展到10亿,其结果与现有的 Transformer++和混合模型相当甚至更优,同时显著降低了推理缓存要求。

Liquid AI表示,STAR植根于一种融合了动力系统、信号处理和数值线性代数原理的设计理论。

这种基础方法使团队能够为计算单元开发一个多功能的搜索空间,涵盖注意力机制、递归和卷积等组件。

STAR的一大特色是其模块化,这使得该框架能够跨多个层次对架构进行编码和优化。此功能可深入了解重复出现的设计主题,并使研究人员能够确定架构组件的有效组合。

声明:本内容仅用作提供资讯及教育之目的,不构成对任何特定投资或投资策略的推荐或认可。 更多信息
    抢沙发