作者 | 刘宝丹
编辑 | 周智宇
ChatGPT的爆红让人们看到了AI大模型的巨大潜力,在经过一年多的技术追赶后,国内大模型公司纷纷押注应用端。
然而,要想做出一款真正有影响力的产品,并不是件容易的事情。
在2024世界人工智能大会上,商汤CEO徐立审慎地指出:“尽管热潮汹涌,但我们距离那个真正震撼业界的‘超级时刻’尚有距离。”他强调,AI尚未全面渗透至各行各业的骨髓之中,也未能在社会上激起广泛而深刻的变革涟漪。
正是基于这种清醒的认知,商汤把当前的重点放在了大模型本身的性能上。
7月5日,商汤在“大爱无疆·向新力”人工智能论坛上发布了“日日新5o”,这是国内首个所见即所得模型,其交互体验对标GPT-4o。
具体来看,“日日新5o”通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,带来一种全新的AI交互模式,即实时的流式多模态交互。
对于为何命名为5o,商汤研究院研发总监卢乐炜对华尔街见闻表示,这个版本引入了很多现在能媲美 GPT-4o 的最前沿能力,在版本命名上比较保守,V6会有一个更大的计划,带来更全面、更基础的大升级。
创新交互模式
在现场,商汤科技对“日日新5o”的能力进行了演示:
刚开始,工作人员仅是和“日日新5o”打个招呼,它就自动识别出工作人员脖子佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。
接下来,工作人员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴——一个戴着印有商汤科技logo白帽子,很给主场人排面。
再上些难度,随便翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结,这一切在瞬间即可完成,真正做到实时交互。
工作人员还现场发挥了“画功”,随手画了一只简笔画小兔子,“日日新5o”直呼画得可爱,而后工作人员又画了一个微笑表情,它从这个平静的表情中捕捉到了笑意,工作人员又改了一笔把嘴巴画大增添了舌头,“日日新5o”看到后立马说到这表情开心多了。
“日日新5o”打造的是如同真人聊天一般的交流对话,据商汤介绍,这种交互模式特别适用于实时对话和语音识别等应用,能够实现对标GPT-4o的交互体验正是源于“日日新5.5”基础模型能力的全面提升。
接下来的计划
今年4月,商汤科技发布了“日日新5.0”,这是国内首个对标GPT-4 Turbo的国产大模型,引发资本市场的热潮。
短短两个多月时间,全新“日日新5.5”体系迎来多项升级,综合性能较“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。
卢乐炜表示,5.5的发布从技术预研来说,不是最近几个月的,它是商汤自上年末在研发原生多模态的一个方法论的集成。“这一块恰好跟 GPT-4o 的 o 这个 Omni的实际含义是一样的。我们当时很早就预判了这个趋势,有一个研发攻关的技术团队在做这个事。”
“它能在训练过程中涵盖多个模态带给它的知识,然后相互融合,这个对于算法的性能精度提升帮助非常大。”卢乐炜进一步强调,这个原生多模态集成了音频、视频,还有最早的图像,从输入端encoder到输出端 decoder 都是完全集成到一个模型里。
此外,“日日新5.5”采用混合端云协同专家架构,最大限度发挥云边端协同,降低推理成本,模型训练基于超过10TB tokens高质量训练数据,包括大量合成的思维链数据,提升推理思维能力。
对于接下来的版本计划,卢乐炜表示,这一版本更新还是相当大的,当时也考虑按常规是一个 V6 的版本号,但我们同时在进行的 V6 版本会有一个更大的计划,它能承载一个希望更全面的、更基础的一个大的升级。
“我们先把他保守的宣传做一个5.5版本的发布,希望也可以让大家期待一下,到时候 V6 将会带来怎样一个更全面的升级。”