share_log

Introducing Molmo: A Family of State-of-the-Art Open Multimodal Models

最先端のオープンマルチモーダルモデルのファミリー、Molmoを紹介します

Businesswire ·  09/25 10:25

Molmoは、最もadvancedなマルチモーダルモデルを超え、視覚世界で指し示し、行動できるオープンモデルを作成することによって、現在の最先端のマルチモーダルモデルを超えました。

シアトル-(BUSINESS WIRE)- 本日、人工知能研究所(Ai2)は、最新のマルチモーダルモデルのファミリーであるMolmoのローンチを発表しました。このファミリーには、最新のMolmoモデルである最高のMolmoモデルが含まれており、クローズモデルとオープンモデルの間のギャップを埋め、現在利用可能な最もオープンで強力なマルチモーダルモデルであり、最も効率的なモデルでもあります。現在、最先進のマルチモーダルモデルは世界を認識し、私たちとコミュニケーションを取ることができますが、Molmoはそれを超えて、自分たちの世界で行動することを可能にし、洗練されたWebエージェントからロボットまで、新しい能力の世代を開くことができます。





Molmoの主な機能には次のものが含まれます:

  • 優れた画像理解:Molmoは、日常の物体や標識から複雑なグラフ、めちゃくちゃなホワイトボード、時計、メニューまで幅広い視覚データを正確に理解できます。
  • 行動可能な洞察:知覚と行動の間のギャップを埋めるため、Molmoモデルは認識したものを指し示し、空間的知識が必要とされる幅広い機能を可能にします。Molmoは、画面上のUI要素を簡単に指し示すことができ、開発者が複雑な相互作用を画面内および現実世界内でナビゲートできるWebエージェントやロボットを構築するのを支援します。

Molmoは誰にでも利用可能です:

  • オープン:Molmoの言語とビジョンのトレーニングデータ、ファインチューニングデータ、モデルの重み、ソースコードはすべてオープンでコミュニティに利用可能です。
  • 効率的:Molmoのトレーニングレシピとモデルは信じられないほどデータ効率的であり、以前よりもはるかに少ない計算量が必要です。そのため、全コミュニティにアクセス可能であります。
  • デバイス上で実行されます:Molmo-10億モデルは小さく、高速でパフォーマンスが優れており、ほとんどのデバイスに収まるほど小さくなっています。

オープンとクローズドのAIモデルの間のギャップを埋める

Molmoモデルの精度と能力は、オープンとプロプライエタリモデルの間のギャップが縮小していることを示しています。Molmoファミリー内のクラス最高の720億モデルは、オープンウェイトとデータモデルのクラスで他を凌駕するだけでなく、GPt-4V、Claude 3.5、Gemini 1.5などのプロプライエタリシステムとも有利な比較を示しています。

Molmoはオープンで設計・構築され、Ai2は近い将来、全モデルのウエイト、キャプション化および微調整データ、ソースコードを公開します。選択されたモデルのウエイト、推論コード、およびデモは、本日から利用可能です。すべてのデータとコードを共有することで、Ai2はAIに関するオープンな基準を設定し、AIコミュニティ内での継続的な研究とイノベーションを可能にするためのオープンアクセスを提供しています。

より小さなモデルが大きなものと同等に強力になりつつあります

Molmoファミリーは、より小さなモデル(70億パラメーター)でもプロプライエタリでより高価な代替製品と同等の性能を発揮できることを示しています。このアプローチは、開発の障壁を低くし、Molmoのユニークな能力を活かしてAIコミュニティが革新的なアプリケーションを構築するための堅固な基盤を提供しています。Molmoファミリーには、わずか10億のアクティブパラメーターを持つOLMo-Eで構築された最も効率的なモデルも含まれており、デバイスに展開するのに適しています。

Molmoの効率的かつオープンなマルチモーダルデータ

効率的かつ創造的なデータの使用を通じて、Molmoはモデルのパフォーマンスを飛躍的に向上させています。最近のマルチモーダルLLMが巨大なウェブ規模の言語ビジョンデータに依存しているのとは異なり、Molmoは約100万枚の画像を緻密に選定したセットを使用してトレーニングされており、焦点を絞った効率的なアプローチが、幅広い計算リソースを必要とせずに優れた結果を生み出すことができることを示しています。

主要な革新点は、音声による説明を使い人間の注釈者から収集された画像のキャプションデータセットであり、幅広いユーザーとのインタラクションを可能にするために、数えるなどのタスクを強化し、VLMsによって環境内で指し示すことでエージェントが行動できる未来の方向性としての基盤を作成する画期的な2Dポイントデータを含む多様なデータセットの組み合わせを導入しています。私たちの手法の成功は、モデルアーキテクチャの詳細に慎重に選ばれた選択肢、調整されたトレーニングパイプライン、そして最も重要なのは、新たに収集されたデータセットの品質に依存しており、これらはすべて完全に公開される予定です。

「Molmoは信じられないほど優れたAIモデルであり、AIが画像を理解し、指し示すことを通じて世界と対話するためのパラダイムを導入することにより、AI開発の最前線を押し進めています。モデルのパフォーマンスは、AIが画像をテキストを通じて理解するよう教えるために、非常に高品質のキュレーションされたデータセットによって推進されています。トレーニングは、現在行われているものよりもはるかに速く、安価で簡単であり、それにより、どのように構築されたかを公開することが、スタートアップから学術研究室まで、AI開発の最前線で作業するためにAIコミュニティ全体に力を与えるでしょう。」と、Allen Institute for AIの研究者であるMatt Deitke氏は述べています。

「マルチモーダルAIモデルは通常何十億もの画像でトレーニングされます。しかし、私たちは代わりに、非常に高品質のデータを使用することに重点を置いていますが、そのスケールは1000倍小さくなっています。これにより、最高のプロプライエタリシステムと同等に強力なモデルが生成されますが、幻覚は少なくなり、トレーニングがはるかに速くなり、コミュニティにははるかにアクセスしやすくなりました。」と、Allen Institute for AIの研究部門上級ディレクターであるAni Kembhavi氏は述べています。

より良いAIの未来を築くためのMolmoの構築

MolmoはAIコミュニティにとって重要な前進の一歩を表しています。最先端のパフォーマンスで実世界でアクション可能な能力が組み込まれたモデルは、無料でオープンに利用可能であり、展開も効率的であり、これにより、すべての研究者、開発者、消費者が目の前のAIを利用、構築、発展させる可能性が開かれました。

詳しくはこちらをご覧ください。

今すぐ試してください:


連絡先

Sophie Lebrecht
sophiel@allenai.org

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする