Molmo goes beyond today's most advanced multi-modal models by creating open models that can now point and act in the visual world
SEATTLE--(BUSINESS WIRE)--Today, the Allen Institute for AI (Ai2) announced the launch of Molmo, a family of state-of-the-art multimodal models. This family includes our best Molmo model, closing the gap between close and open models, the most open and powerful multimodal model today, and the most efficient model. Currently, most advanced multimodal models can perceive the world and communicate with us, Molmo goes beyond that to enable one to act in their worlds, unlocking a whole new generation of capabilities, everything from sophisticated web agents to robotics.
Key capabilities of Molmo include:
- Exceptional Image Understanding: Molmo can accurately understand a wide range of visual data, from everyday objects and signs to complex charts, messy whiteboards, clocks, and menus.
- Actionable Insights: To bridge the gap between perception and action, Molmo models can point to what they perceive, empowering a wide range of capabilities that require spatial knowledge. Molmo can effortlessly point to UI elements on the screen, enabling developers to build web agents or robots that can navigate complex interactions both on screen and within the real-world.
Molmo is accessible to everyone:
- Open: Molmo's language and vision training data, fine tuning data, model weights, source code will all be open and available to the community.
- Efficient: The Molmo training recipe and models are incredibly data efficient, requiring far less compute than before, making it accessible to the entire community.
- Runs on device: The Molmo-1B model is tiny, fast and performant, small enough to fit on most devices.
Closing the gap between open and closed AI models
The accuracy and capability of Molmo models shows the gap between open and proprietary models is closing. The best in class 72B model within the Molmo family not only outperforms others in the class of open weight and data models, but also compares favorably against proprietary systems like GPT-4V, Claude 3.5 and Gemini 1.5.
Molmo was designed and built in the open and Ai2 will be releasing all model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available starting today. By sharing all data and code Ai2 continues to set the open standards for AI, providing open access to enable continued research and innovation in the AI community.
Smaller models are becoming as powerful as big
The Molmo family demonstrates that even smaller models (7B parameters) can perform as well as proprietary, more expensive alternatives. This approach lowers barriers to development and provides a robust foundation for the AI community to build innovative applications around Molmo's unique capabilities. The Molmo family includes our most efficient model built with OLMo-E that has only 1 billion active parameters, making it suitable to be deployed to devices.
Molmo's efficient and open multimodal data
Molmo leapfrogs model performance through efficient and creative use of data. Unlike recent multimodal LLMs that rely on massive webscale language-vision data, Molmo is trained using a meticulously curated set of slightly under 1 million images, demonstrating that a focused, efficient approach can yield superior results without the need for extensive computational resources.
The key innovation is a novel, highly-detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture including innovative 2D pointing data that enhances tasks like counting and creates a foundation for future directions in which VLMs enable agents to act by pointing in their environments. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and most critically the quality of our newly collected datasets, all of which will be fully released.
"Molmo is an incredible AI model with exceptional visual understanding, which pushes the frontier of AI development by introducing a paradigm for AI to interact with the world through pointing. The model's performance is driven by a remarkably high quality curated dataset to teach AI to understand images through text. The training is so much faster, cheaper, and simpler than what's done today, such that the open release of how it is built will empower the entire AI community, from startups to academic labs, to work at the frontier of AI development," said Matt Deitke, Researcher at the Allen Institute for AI.
"Multimodal AI models are typically trained on billions of images. We have instead focussed on using extremely high quality data but at a scale that is 1000 times smaller. This has produced models that are as powerful as the best proprietary systems, but with fewer hallucinations and much faster to train, making our model far more accessible to the community," said Ani Kembhavi, Senior Director of Research at the Allen Institute for AI.
Building Molmo for a Better AI Future
Molmo represents a critical step forward for the AI community. The combined power of capabilities that are actionable in the real-world operating at state-of-the-art performance in a model that is free, openly available, and efficient to deploy opens the possibility for all researchers, developers, and consumers to have access to use, build, and advance safe and openly available AI in our visual world.
Learn more:
Try now:
Contacts Sophie Lebrecht
sophiel@allenai.org
Molmoは、最もadvancedなマルチモーダルモデルを超え、視覚世界で指し示し、行動できるオープンモデルを作成することによって、現在の最先端のマルチモーダルモデルを超えました。
シアトル-(BUSINESS WIRE)- 本日、人工知能研究所(Ai2)は、最新のマルチモーダルモデルのファミリーであるMolmoのローンチを発表しました。このファミリーには、最新のMolmoモデルである最高のMolmoモデルが含まれており、クローズモデルとオープンモデルの間のギャップを埋め、現在利用可能な最もオープンで強力なマルチモーダルモデルであり、最も効率的なモデルでもあります。現在、最先進のマルチモーダルモデルは世界を認識し、私たちとコミュニケーションを取ることができますが、Molmoはそれを超えて、自分たちの世界で行動することを可能にし、洗練されたWebエージェントからロボットまで、新しい能力の世代を開くことができます。
Molmoの主な機能には次のものが含まれます:
- 優れた画像理解:Molmoは、日常の物体や標識から複雑なグラフ、めちゃくちゃなホワイトボード、時計、メニューまで幅広い視覚データを正確に理解できます。
- 行動可能な洞察:知覚と行動の間のギャップを埋めるため、Molmoモデルは認識したものを指し示し、空間的知識が必要とされる幅広い機能を可能にします。Molmoは、画面上のUI要素を簡単に指し示すことができ、開発者が複雑な相互作用を画面内および現実世界内でナビゲートできるWebエージェントやロボットを構築するのを支援します。
Molmoは誰にでも利用可能です:
- オープン:Molmoの言語とビジョンのトレーニングデータ、ファインチューニングデータ、モデルの重み、ソースコードはすべてオープンでコミュニティに利用可能です。
- 効率的:Molmoのトレーニングレシピとモデルは信じられないほどデータ効率的であり、以前よりもはるかに少ない計算量が必要です。そのため、全コミュニティにアクセス可能であります。
- デバイス上で実行されます:Molmo-10億モデルは小さく、高速でパフォーマンスが優れており、ほとんどのデバイスに収まるほど小さくなっています。
オープンとクローズドのAIモデルの間のギャップを埋める
Molmoモデルの精度と能力は、オープンとプロプライエタリモデルの間のギャップが縮小していることを示しています。Molmoファミリー内のクラス最高の720億モデルは、オープンウェイトとデータモデルのクラスで他を凌駕するだけでなく、GPt-4V、Claude 3.5、Gemini 1.5などのプロプライエタリシステムとも有利な比較を示しています。
Molmoはオープンで設計・構築され、Ai2は近い将来、全モデルのウエイト、キャプション化および微調整データ、ソースコードを公開します。選択されたモデルのウエイト、推論コード、およびデモは、本日から利用可能です。すべてのデータとコードを共有することで、Ai2はAIに関するオープンな基準を設定し、AIコミュニティ内での継続的な研究とイノベーションを可能にするためのオープンアクセスを提供しています。
より小さなモデルが大きなものと同等に強力になりつつあります
Molmoファミリーは、より小さなモデル(70億パラメーター)でもプロプライエタリでより高価な代替製品と同等の性能を発揮できることを示しています。このアプローチは、開発の障壁を低くし、Molmoのユニークな能力を活かしてAIコミュニティが革新的なアプリケーションを構築するための堅固な基盤を提供しています。Molmoファミリーには、わずか10億のアクティブパラメーターを持つOLMo-Eで構築された最も効率的なモデルも含まれており、デバイスに展開するのに適しています。
Molmoの効率的かつオープンなマルチモーダルデータ
効率的かつ創造的なデータの使用を通じて、Molmoはモデルのパフォーマンスを飛躍的に向上させています。最近のマルチモーダルLLMが巨大なウェブ規模の言語ビジョンデータに依存しているのとは異なり、Molmoは約100万枚の画像を緻密に選定したセットを使用してトレーニングされており、焦点を絞った効率的なアプローチが、幅広い計算リソースを必要とせずに優れた結果を生み出すことができることを示しています。
主要な革新点は、音声による説明を使い人間の注釈者から収集された画像のキャプションデータセットであり、幅広いユーザーとのインタラクションを可能にするために、数えるなどのタスクを強化し、VLMsによって環境内で指し示すことでエージェントが行動できる未来の方向性としての基盤を作成する画期的な2Dポイントデータを含む多様なデータセットの組み合わせを導入しています。私たちの手法の成功は、モデルアーキテクチャの詳細に慎重に選ばれた選択肢、調整されたトレーニングパイプライン、そして最も重要なのは、新たに収集されたデータセットの品質に依存しており、これらはすべて完全に公開される予定です。
「Molmoは信じられないほど優れたAIモデルであり、AIが画像を理解し、指し示すことを通じて世界と対話するためのパラダイムを導入することにより、AI開発の最前線を押し進めています。モデルのパフォーマンスは、AIが画像をテキストを通じて理解するよう教えるために、非常に高品質のキュレーションされたデータセットによって推進されています。トレーニングは、現在行われているものよりもはるかに速く、安価で簡単であり、それにより、どのように構築されたかを公開することが、スタートアップから学術研究室まで、AI開発の最前線で作業するためにAIコミュニティ全体に力を与えるでしょう。」と、Allen Institute for AIの研究者であるMatt Deitke氏は述べています。
「マルチモーダルAIモデルは通常何十億もの画像でトレーニングされます。しかし、私たちは代わりに、非常に高品質のデータを使用することに重点を置いていますが、そのスケールは1000倍小さくなっています。これにより、最高のプロプライエタリシステムと同等に強力なモデルが生成されますが、幻覚は少なくなり、トレーニングがはるかに速くなり、コミュニティにははるかにアクセスしやすくなりました。」と、Allen Institute for AIの研究部門上級ディレクターであるAni Kembhavi氏は述べています。
より良いAIの未来を築くためのMolmoの構築
MolmoはAIコミュニティにとって重要な前進の一歩を表しています。最先端のパフォーマンスで実世界でアクション可能な能力が組み込まれたモデルは、無料でオープンに利用可能であり、展開も効率的であり、これにより、すべての研究者、開発者、消費者が目の前のAIを利用、構築、発展させる可能性が開かれました。
詳しくはこちらをご覧ください。
今すぐ試してください:
連絡先
Sophie Lebrecht
sophiel@allenai.org