share_log

商汤科技刘宇:AIGC的价值不只体现在产品上,更是激发灵感的工具

Time Weekly ·  07/11 00:47

在AI绘画的技术领域中,文生图(text-to-image generation)技术因其卓越性能而备受瞩目,被广泛应用于创造独具特色且引人入胜的艺术作品。

然而,大部分用户在使用中发现,想要生成一张理想的高质量作品,往往需要对描述过程中的Prompt(提示词)进行反复地调整与优化。

近日,时代财经针对当前文生图领域发展现状及大模型在垂直领域的商业模式等问题专访了商汤科技研究执行总监刘宇。对于这些核心议题,刘宇给出了详尽的解释,并对该行业的未来发展趋势进行了深入地分析与预判。

语言理解能力及数据是提升出图质量的关键

事实上,在内容合理性方面,文生图在人体结构和手部方面的内容生成经常出现问题。“在文生图领域,普遍出现构图错位、画面油腻、实际效果不佳等问题。即便是行业头部公司,生成作品中仍然存在着诸多画面内容上的不足。”刘宇称。

“目前业界正在解决宏观结构、多主体之间的关系、微观结构这三个问题,也是我们一步一步在解决的问题。我们需要从基础模型,即资源百亿参数的AIGC大模型进行优化,这一过程涵盖了众多技术层面的深度调整与改进。”

据了解,商汤科技在2024WAIC期间有两款新产品发布,分别为“秒画AIGC大模型 Artist_v1.0.0正式版”和“秒画趣拍”。其中秒画正式版融合了商汤最先进的技术和创新算法,在语言理解能力等方面较此前有着较大提升。

“首先,其显著特点之一在于对多语种内容的深度理解与支持,与此同时,该版本‘秒画’对于语言的逻辑性、语言间的关联以及同一主体在不同语境下的多样化描述方式均展现出较高的容忍性。这一特性使得用户在使用过程中,无需频繁调整Prompt,即可直接生成具有精美内容和高度准确性的图像。”刘宇表示。

据刘宇介绍,商汤科技专门训练了一个大规模语言模型,用于对prompt用户输入文本进行理解。除模型外,数据也是重点的优化项。“在过去的半年里,我们的新版本进行了大量的数据收集和清洗,这是除算力外成本最大的部分,也使得全新模型与上一版本相比有着较大飞跃。”

刘宇举例称,“回顾一年前,即在我们还在自研v0.4.0beta版本时,该模型在某些情况下还是会存在‘多手多脚’或‘手指数量不对’的问题。如今,无论是在行业内部还是在使用我们大模型的场景中,尽管这类问题仍然可能出现,但其出现的频率或概率已经显著降低。”

“在当前的情境下,要实现100%的解决方案,微调确实是一个必要的手段。”刘宇表示,从基础大模型的发展脉络来看,我们正处于一个持续优化和改进的过程中,未来随着基础模型的持续进步和技术的不断革新,这类问题终将得到全面解决。

垂直领域应用落地

2023年被称为“大模型元年”,中国涌现出上百个大模型,掀起“百模大战”,2024年,越来越多的用户真正开始使用大模型。

事实上,业内对大模型在落地层面的理解一直在加强。刘宇表示,大模型在多个行业领域均展现出广泛的需求,涵盖了营销领域、电商行业以及手机电脑等终端产品,拥有大量面向企业级的B端客户。

“我们始终坚信,即在当前阶段,无论是从调用量还是付费能力来说,大模型在B端的应用始终是高于C端的。”刘宇表示。

针对秒画当前的商业模式,刘宇的阐述主要聚焦于三个核心类别。“首先,对于终端厂商而言,他们倾向于直接调用我们的模型API,并原封不动地将其集成至服务流程中,以此为用户带来便利。其次,对于特定垂直应用场景的B端客户,如电商或营销行业,他们可能会基于品牌特性,选择定制专属的模型,以满足其特定需求。”

“此外,还有一些合作伙伴,他们对模型的需求尤为详尽,往往要求我们为其定制一个大型模型,用于端上的生图交互场景服务,这一模型的训练也将涉及全面数据的应用。”

而在C端市场,和众多科技大厂一样,商汤秒画目前的策略也主要侧重于提升用户体验的阶段。“我们致力于将我们在B端所拥有的核心能力,特别是我们目前在业界领先的基础大模型,以及之前提及的经过广泛训练所具备的能力,以免费的形式提供给C端用户进行体验,从而让他们能够充分感受到我们的技术优势。”刘宇表示。

业内普遍表示,大模型本身不产生价值,只有跟具体业务结合并落地,其价值才能得以体现。对于大模型在文生图领域的价值体现,刘宇也表达了相似的观点,“大模型在文生图领域所展现的核心价值,主要在于其能够启发用户通过生成的产品图联想到特定的需求。换言之,AIGC对于用户群体的价值并非直接体现在最终的产品图上,而是作为一种能够激发创意和灵感的工具,为用户带来无限的可能性。”

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする