エヌビディアは今週Blackwellサンプルを送信し、3Dおよびシーズンモデルの作成をサポートするNIMのアップデートをリリースしました。siasun robot&automation

wallstreetcn · 19:05

本周一英伟达的软件更新扩大了云原生微服务NIM的推理微服务库，涵盖了物质世界环境、高级视觉建模和各种垂直应用，推动企业大规模部署AI模型。英伟达的深度学习框架fVDB利用现实世界3D数据打造空间智能；开源模块化框架Isaac Lab提供模拟，加快机器人学习；英伟达为物质世界的AI量身定制NIM，用NIM和VIA微服务打造VLM驱动的视觉AI代理；英伟达Omniverse Replicator帮助解决限制模型训练的数据短缺问题。

本文作者：李丹

来源：硬AI

美东时间7月29日周一，在美国丹佛市举行的计算机图形学和交互技术年度大会和展会SIGGRAPH 2024上，英伟达亮出新工具。

英伟达CEO黄仁勋在SIGGRAPH 2024透露，本周英伟达发送Blackwell架构的样品，这是今年首发的新款芯片架构。同时，英伟达公布了一系列软件更新，主要涉及用于优化人工智能（AI）推理的云原生微服务——Nvidia inference micro service（NIM），推动企业大规模部署AI模型。

今年3月英伟达推出NIM时介绍，NIM提供经过优化的推理微服务，旨在缩短上市时间，并简化生成式 AI 模型在云、数据中心和 GPU 加速工作站的任何位置的部署。NIM 支持跨多个领域的 AI 用例，包括大语言模型 (LLM)、视觉语言模型 (VLM)，以及用于语音、图像、视频、3D、药物研发、医学成像等的模型。

开发者可以使用英伟达托管的云API测试新的生成式 AI 模型，或者通过下载 NIM 来自行托管模型，并在主要云提供商或本地使用 Kubernetes 快速部署，以减少开发时间、复杂性和成本。NIM微服务通过打包算法、系统和运行时优化并添加行业标准 API 来简化 AI 模型部署流程。这使开发者能够将 NIM 集成到其现有应用程序App和基础设施中，无需大量定制或专业知识。

本周一英伟达宣布的更新扩大了NIM推理微服务库，涵盖了物质世界环境、高级视觉建模和各种垂直应用。英伟达已在预览版中提供了约 100项NIM推理微服务，现在要发布完整版本。比如，作为英伟达的部分新NIM，视觉媒体公司Getty Images Holdings的4K 图像生成 API 和图像、影片、音乐等数字内容供应商Shutterstock Inc. 的3D图像生成器即将上线。两者都使用英伟达的Nvidia Edify，它是一种用于视觉生成 AI 的多模式架构。

英伟达同日宣布，与自然语言处理（NLP）工具集和平台Hugging Face合作，推出了推理即服务，帮助开发人员使用托管在 Hugging Face Hub 上的开源AI模型快速制作原型，并将其部署到生产中。评论称，这一合作将简化开发者的AI模型部署。

fVDB利用现实世界3D数据打造空间智能

其中，英伟达推出fVDB，利用现实世界的3D数据，打造空间智能。英伟达称，生成式物质AI模型可以理解并执行物质世界中精细或粗大动作技能的操作。理解物质世界的三维空间并在其中导航需要空间智能。为了给这种AI提供一个能够处理现实规模的强大、连贯的框架，英伟达打造了fVDB，这是一个专为稀疏、大规模和高性能空间智能而设计的深度学习框架。

fVDB建立在OpenVDB上，OpenVDB 是一个行业标准的结构和程序库，用于模拟和渲染水、火、烟和云等稀疏体积数据。fVDB 提供的空间规模是以前框架的四倍，性能是以前框架的 3.5 倍，并且可以访问大量现实世界数据集。它通过组合以前需要多个深度学习库的功能来简化流程。

开源模块化框架Isaac Lab提供模拟加快机器人学习

英伟达同时推出Isaac Lab，它是一个用于机器人学习的开源模块化框架，可以解决传统训练方法对机器人学习技能的限制。

Isaac Lab 为不同的训练环境提供模块化的高保真模拟，提供物质世界AI功能和 GPU 驱动的物质世界模拟。

Isaac Lab 支持模仿学习（模仿人类）和强化学习（通过反复试验学习），为任何机器人实现提供灵活的训练方法。它为训练场景提供了一个用户友好的环境，可帮助机器人制造商根据不断变化的业务需求添加或更新机器人技能。

用英伟达NIM和VIA微服务打造VLM 驱动的视觉AI代理

英伟达为物质世界的AI量身定制了NIM，支持语音和翻译、视觉以及逼真的动画和行为。英伟达推出VIA微服务，现已可在开发者预览版中下载。

VIA微服务可以轻松与NIM集成，用户可以在英伟达的模型预览API和可下载NIM微服务API目录中灵活使用任何LLM或VLM模型。VIA微服务是英伟达Metropolis微服务的扩展，是云原生构建块，可加快VLM和NIM驱动的视觉AI代理开发速度，无论部署在边缘还是云端。

借助生成式 AI、NIM微服务和基础模型，现在用户可以用更少的模型，构建具有广泛感知和丰富上下文理解的App。VLM支持能够理解自然语言提示并执行视觉问答的视觉 AI 代理。视觉AI代理使用计算机视觉功能来感知物质世界并与其交互、执行推理任务。

这些代理能充分释放了各行各业应用的可能性，它们能显著简化App开发的工作流程，并提供了变革性的新感知功能，例如图像或视频摘要、交互式视觉问答和视觉警报。这些视觉AI代理将可以部署在工厂、仓库、零售店、机场、交通路口等地，将帮助运营团队利用自然互动中产生的更丰富见解，做出更好的决策。

Omniverse Replicator帮助解决限制模型训练的数据短缺问题

英伟达介绍了如何用NIM微服务为USD建立自定义合成数据生成 (SDG) 管道，该微服务采用了英伟达的Omniverse Replicator。Omniverse Replicator是基于通用场景描述 (OpenUSD) 和英伟达RTX构建的 SDK。

开发人员可以使用 NIM微服务和 Omniverse Replicator 等来构建支持生成式AI 的SDG管道，解决通常会限制模型训练的现实世界数据短缺问题。

英伟达的Omniverse和模拟技术副总裁 Rev Lebaredian 说：

“我们构建了世界上第一个能够理解基于OpenUSD的语言、几何、材料、物理和空间的生成式AI模型。”

Lebaredian称，2016 年以来，英伟达一直在投资OpenUSD，使工业企业和物质AI开发人员能够更轻松、更快地开发高性能模型。

英伟达还与共同创立了OpenUSD联盟的苹果合作，构建了从英伟达由图形就绪数据中心组成的网络——Graphics Delivery Network、到苹果Apple Vision Pro在内的混合渲染管道流。

本週の月曜日、NVIDIAのソフトウェア更新によって、クラウドネイティブマイクロサービスNIMの推論マイクロサービスライブラリが拡張され、物質世界の環境、高度なビジョンモデリング、およびさまざまな垂直アプリケーションがカバーされ、企業のAIモデルの大規模な展開が推進されました。 NVIDIAの深層学習フレームワークfVDBを使用して、現実世界の3Dデータを活用して、空間知能を構築しています。オープンソースモジュール化フレームワークIsaac Labは、シミュレーションを提供して、ロボット学習を加速します。 NVIDIAは、物質世界用のカスタムNIMを提供し、NIMとVIAマイクロサービスを使用してVLMドライブのビジョンAIエージェントを作成しました。NVIDIA Omniverse Replicatorは、モデルトレーニングの制限に対処するのに役立ちます。

本文の著者：李丹

出典：ハードAI

米国デンバー市で開催されたコンピュータグラフィックスとインタラクティブ技術年次大会および展示会SIGGRAPH 2024では、エヌビディアが新しいツールを披露しました。

SIGGRAPH 2024で、エヌビディアのCEO、黄仁勋は、エヌビディアの新しいチップアーキテクチャであるBlackwellアーキテクチャのサンプルを今週送信したことを明らかにしました。同時に、エヌビディアは、主に人工知能（AI）推論を最適化するためのクラウドネイティブマイクロサービスであるNvidia Inference Micro Service（NIM）のソフトウェアの新しいバージョンを公開し、企業のAIモデルの大規模な展開を推進します。

エヌビディアは今年3月に、NIMを発表し、最適化された推論マイクロサービスを提供し、上市時間を短縮し、クラウド、データセンター、およびGPUアクセラレーションワークステーションのあらゆる場所で生成型AIモデルを展開することを目的としています。 NIMは、大規模な言語モデル（LLM）、視覚言語モデル（VLM）を含む、複数のAIユースケースをサポートし、音声、画像、ビデオ、3D、薬剤研究、医療イメージングなどに使用されます。

開発者は、エヌビディアがホスティングするクラウドAPIを使用して、新しい生成型AIモデルをテストしたり、NIMをダウンロードして、主要なクラウドプロバイダーまたはローカルでKubernetesを使用してモデルを自己ホストしたりして、開発時間、複雑性、コストを削減できます。 NIMマイクロサービスは、アルゴリズム、システム、ランタイムをパッケージ化し、業界標準のAPIを追加することで、AIモデルのデプロイメントプロセスを簡素化します。これにより、開発者は、NIMを既存のアプリケーションとインフラストラクチャに統合でき、大量のカスタマイズや専門的な知識なしに、カスタマイズしたり、大規模に展開したりできます。

エヌビディアは、先週発表された更新により、NIMインフェランスマイクロサービスライブラリが拡大し、物質世界環境、高度な視覚モデリング、およびさまざまな垂直アプリケーションをカバーするようになりました。エヌビディアは、100以上のNIM推論マイクロサービスをプレビューバージョンで提供しており、今後、完全なバージョンをリリースする予定です。ビジュアルメディア会社のGetty Images Holdingsの4K画像生成APIや、映像、音楽などのデジタルコンテンツプロバイダのShutterstock Inc.の3D画像生成器など、エヌビディアの一部である新しいNIMとして、様々なサービスを提供する予定です。双方とも、多様なビジュアル生成AIに適用可能な多様なアーキテクチャであるNvidia Edifyを使用しています。

同日、エヌビディアは、自然言語処理（NLP）ツールセットおよびプラットフォームHugging Faceと提携して、推論即サービスを発表し、Hugging Face HubにホストされているオープンソースAIモデルを使用したプロトタイプの迅速な作成と本番環境への展開を支援します。このパートナーシップにより、AIモデルのデプロイメントが簡素化される可能性が高いとされています。

fVDBを使用した現実世界の3Dデータに基づいたスペースインテリジェンスの構築

その中に、エヌビディアは、現実世界の3Dデータを利用して、スペースインテリジェンスを構築するfVDBを発表しました。生成型物質AIモデルは、細かいまたは大胆な操作技能を理解して実行できます。物質世界の3D空間を理解し、そこでのナビゲーションには、スペースインテリジェンスが必要です。このようなAIに対して、実際のスケールで処理できる強力で継続的なフレームワークを提供するために、エヌビディアはfVDBを開発しました。これは、スパース、大規模、高性能の空間インテリジェンスに特化したディープラーニングフレームワークです。

fVDBは、業界標準の構造とプログラムライブラリであるOpenVDB上に構築されており、水、火、煙、雲などのスパース体積データをシミュレートおよびレンダリングするために使用されます。 fVDBは、以前のフレームワークの4倍の空間スケールと、以前のフレームワークの3.5倍のパフォーマンスを提供し、多くの現実世界のデータセットにアクセスできます。これにより、以前は複数のディープラーニングライブラリが必要だった機能を組み合わせることで、プロセスを簡素化しました。

オープンソースモジュール化フレームワークIsaac Labは、ロボットの学習を加速します。

エヌビディアは、ロボット学習用のオープンソースモジュール化フレームワークであるIsaac Labを発表し、従来のトレーニング方法によるロボットスキルの制限を解決することができます。

Isaac Labは、モジュラーで高品質なシミュレーションを提供し、物質世界のAI機能とGPUドライブの物質世界シミュレーションを特集している、ロボット学習のためのオープンソースモジュール化フレームワークです。

Isaac Labは、模倣学習（人間の模倣）および強化学習（反復実験学習）をサポートし、柔軟なトレーニング手法を提供します。変化に富むビジネス要件に応じて、ロボットメーカーは、状況および状況に応じて、ロボットのスキルを追加または更新できる、ユーザーフレンドリーな環境を提供しています。

エヌビディアは物質世界のAIのためにNIMを利用し、言語、翻訳、視覚、逼真のアニメーション、および振る舞いをサポートしています。エヌビディアは、開発者向けのプレビューバージョンでVIAマイクロサービスを発表し、ダウンロード可能なNIMマイクロサービスAPIカタログとエヌビディアモデルプレビューAPIを柔軟に使用できます。

VIAマイクロサービスは、NIMを容易に統合でき、ユーザーは、エヌビディアのモデルプレビューAPIとダウンロード可能なNIMマイクロサービスAPIカタログで、任意のLLMまたはVLMモデルを柔軟に使用できます。VIAマイクロサービスは、エヌビディアMetropolisマイクロサービスの拡張であり、エッジまたはクラウドに展開されたVLMおよびNIMドライブのビジュアルAIエージェントの開発速度を加速するためのクラウドネイティブビルディングブロックです。

生成型AI、NIMマイクロサービス、およびベースモデルを使用することにより、ユーザーは広範な知覚と豊富なコンテキスト理解を備えたアプリを、より少ないモデルで作成できます。 VLMは、自然言語のヒントを理解し、視覚AIエージェントを実行することができます。ビジュアルAIエージェントは、コンピュータビジョン機能を使用して、物質世界を理解し、それとやり取りし、推論タスクを実行します。

生成式AI、NIMマイクロサービス、および基本モデルを使用することにより、現在、ユーザーは豊富なコンテキスト理解力を持つ最小限のモデルを使用して、幅広い認識および理解を持つアプリケーションを作成できます。VLMは、自然言語のヒントを理解して視覚問答を実行するための視覚AIエージェントをサポートします。ビジュアルAIエージェントは、コンピュータビジョン機能により物質世界を感知し、相互作用して推論タスクを実行することができます。

これらの代理は、さまざまな産業のアプリケーションの可能性を最大限に引き出すことができ、App開発のワークフローを著しく簡素化し、画像やビデオの要約、インタラクティブな視覚的質問応答、視覚的な警告などの革新的な新しい知覚機能を提供することができます。これらの視覚AI代理は、工場、倉庫、小売店、空港、交差点などに展開され、自然な相互作用で生成されるより豊富な洞察を運用チームに提供し、より良い意思決定を行うのを支援することができます。

Omniverse Replicatorは、モデルトレーニングを制限するデータ不足の問題を解決するのを支援します

NIMマイクロサービスを使用して、英伟达のOmniverse Replicatorを採用したUSDのカスタム合成データ生成（SDG）パイプラインを構築する方法について、英伟达が紹介しています。Omniverse Replicatorは、汎用シーン記述（OpenUSD）と英伟达RTXで構築されたSDKです。

開発者は、NIMマイクロサービス、Omniverse Replicatorなどを使用して、生成型AIをサポートするSDGパイプラインを構築し、通常モデルトレーニングを制限する現実世界のデータ不足の問題を解決できます。

英伟达のOmniverseおよびシミュレーションテクノロジー副社長のRev Lebaredianは次のように述べています。

「私たちは、OpenUSDをベースにした言語、ジオメトリ、マテリアル、物理、空間を理解できる最初の生成型AIモデルを世界で構築しました。」

Lebaredianは、2016年以来、英伟达はOpenUSDに投資し、産業企業や物質AI開発者が高性能モデルをより簡単に、より速く開発できるようにしていると述べています。

英伟达は、グラフィックスデリバリーネットワークからApple Vision Proに至るまで、グラフィックスレディなデータセンターで構成されるネットワークを構築するために、Appleと共同でOpenUSD Allianceを設立しました。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。更に詳しい情報

英伟达本周发送Blackwell样品，发布NIM更新，支持3D和机器人模型创建