share_log

商汤想要创造“超级时刻”

商汤は「スーパータイミング」を創造したいと考えています。

wallstreetcn ·  07/06 01:24

作者 | 刘宝丹

編集 | 周智宇

ChatGPTの大ヒットは、人々がAI大規模モデルの巨大な潜在力を見ることができ、1年以上の技術追求の後、国内の大規模モデル会社がアプリケーションサイドに注力するようになっています。

しかし、影響力のある製品を作るには容易なことではありません。

2024年世界人工知能大会で、商汤のCEOである徐立は、「熱狂が高まる中で、私たちは本当に業界を震撼させる「超級の瞬間」からはまだ遠く離れています」と慎重に指摘しました。 彼は、「AIはまだすべての業界の骨髄に完全に浸透しておらず、社会的な変革の波紋を広くかつ深く招くことはできなかった。」と強調しました。

このような正確な認識に基づいて、商汤は現在の重点を大規模モデル自体の性能向上に置いています。

7月5日、商汤は「大愛無境・向新力」人工知能フォーラムで「日日新5o」を発表し、これは国内初の見ているものが得られるモデルで、対話体験はGPT-4oに対応しています。

具体的には、「日日新5o」は、音声、テキスト、画像、ビデオなどの多様な形式に基づく跨モーダル情報の統合により、全く新しいAIインタラクションモードを提供し、リアルタイムの流れるようなマルチモーダルインタラクションを実現します。

なぜ5oと命名したのかについて、商汤の研究開発部門長の卢乐炜は、ウォール街ジャーナルに対して、このバージョンにはGPT-4oと同等の最先端能力が導入されており、バージョン命名上で保守的であると述べました。V6にはより大きな計画があるため、より包括的で基本的な大規模なアップグレードを提供する予定です。

革新的なインタラクションモード

商汤科技は、会場で「日日新5o」の能力を実演しました。

最初に、スタッフが「日日新5o」に挨拶すると、自動的にスタッフの名札に表示されている単語を認識し、現場が世界人工知能大会の会場であることを判断して、「よく学びましょう」と答えました。

次に、スタッフはかわいい犬のぬいぐるみを持ち、『日日新5o』は犬の外観、表情、そして重要な装着アイテム - 商汤科技ロゴの白い帽子を着用していることを正確に説明しました。

そして、本のページをランダムにめくると、「日日新5o」は自動的に説明し、ただのOCR文字認識ではなく、グラフィックとテキストを認識して理解し、簡潔で理解しやすいまとめを提供します。これらすべては瞬時に完了し、リアルタイムに対話ができるようになっています。

スタッフは「描画能力」を実証し、かわいいシンプルなウサギを描きました。更に微笑みの表情を描き、「日日新5o」は、穏やかな表情から笑いを見つけ出し、スタッフが口を大きく描くと急にその表情が嬉しくなると発言しました。

「日日新5o」は、まるで人間とのチャットのような対話を実現し、商汤は、このような対話形式は、リアルタイム対話や音声認識などのアプリケーションに特に適しており、対話体験は「日日新5.5」基本モデル機能の全面的な改善から生まれたものです。

次の計画

今年4月、商汤科技は「日日新5.0」をリリースし、これは国内初のGPT-4 Turboに対応する国産大規模モデルです。それにより、資本市場は熱狂状態に陥りました。

わずか2か月以上の間、新しい「日日新5.5」システムはさまざまなアップグレードで改良され、総合性能は「日日新5.0」よりも平均30%向上し、数学推論、英語能力、指示の追跡などの能力が明らかに強化され、対話効果と多くの主要な基準がGPT-4oと同等になりました。

卢乐炜は、5.5のリリースは、技術予測的な観点から、直近数か月間ではなく、商汤がネイティブのマルチモダルの方法論を研究開発した時期からです。彼は、「このフォームは、GPT-4oのOmniと同じ実際の意味を持っています。私たちは当時この傾向を予測し、技術チームがこの問題に取り組んでいました。」と述べました。

卢乐炜は、「トレーニング中に複数のモードをカバーし、それらを統合し、アルゴリズムの性能と精度の向上に非常に役立ちます。」とさらに強調し、このネイティブマルチモーダルは、音声、ビデオ、最初の画像を統合し、入力からエンコーダーから出力まで完全に1つのモデルに集約されています。

さらに、「日日新5.5」は、ハイブリッドエッジクラウドコラボレーションエキスパートアーキテクチャを採用し、クラウドエッジコラボレーションを最大限に活用し、推論コストを削減し、10TBトークン以上の高品質トレーニングデータに基づくモデルトレーニングを提供し、多数の合成思考連鎖データを含め、推論思考能力を向上させます。

次のバージョン計画について、ル・ルウェイ氏は、このバージョンの更新は相当大きいと述べ、当時は通常通りV6のバージョンナンバーを考えていましたが、同時に進めているV6のバージョンにはより大きな計画があり、より包括的で基礎的な大きなアップグレードを行うことができます。

「彼を穏健にパブリシティするために、バージョン5.5をリリースして、それが皆の期待を高めることを願っています。その時、V6はより包括的なアップグレードをもたらします。」

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする