share_log

谷歌推出新一代AI模型Gemini 2.0 Flash,支持生成图像,全面转向Agent

Googleは、画像生成とエージェントへの完全な移行をサポートする次世代のAIモデルであるGemini 2.0 Flashを発表しました

wallstreetcn ·  2024/12/12 07:25

OpenAIが以前に発売した多くの新製品に応えて、Googleは水曜日に、テキスト生成をサポートしながら画像や音声をネイティブに生成できる重要な次世代人工知能モデルであるGemini 2.0 Flashを発売しました。2.0 Flashは、サードパーティのアプリケーションやサービスを使用して、Google検索やコード実行などの機能にアクセスすることもできます。Googleによると、ジェミニ2.0フラッシュは2.0ファミリーの最初のモデルです。主にネイティブのマルチモーダル入力とアウトプット+エージェントを促進します。1.5 Proの2倍の速さで、主要業績評価指標は1.5 Proを上回っています。

著者:チャオ・ユヘさん

ソース:ハードAI

OpenAIが以前に発売した多くの新製品に応えて、Googleは水曜日に、テキスト生成をサポートしながら画像や音声をネイティブに生成できる重要な次世代人工知能モデルであるGemini 2.0 Flashを発売しました。2.0 Flashは、サードパーティのアプリケーションやサービスを使用して、Google検索やコード実行などの機能にアクセスすることもできます。

水曜日から、2.0フラッシュの実験版がGemini APIとグーグルのAI開発プラットフォーム(AI StudioとVertex AI)を通じて利用できるようになります。ただし、音声と画像の生成機能は「アーリーアクセスパートナー」のみが利用でき、来年1月に完全に展開される予定です。

グーグルは、今後数か月以内に、アンドロイドスタジオ、クロームデベロッパーツール、Firebase、ジェミニコードアシストなどの製品向けに2.0 Flashのさまざまなバージョンを発売すると発表しました。

フラッシュアップグレード

第1世代のフラッシュ(1.5フラッシュ)はテキストのみを生成でき、特に要求の厳しいワークロード向けには設計されていません。Googleによると、新しい2.0 Flashモデルはより多様です。その理由の1つは、ツール(検索など)を呼び出したり、外部APIとやり取りしたりできることです。

グーグルのジェミニ・モデル製品の責任者であるタルシー・ドシは、

「Flashは、速度とパフォーマンスのバランスが取れているため、開発者に愛されていることを私たちは知っています。2.0フラッシュでは、速度の優位性は維持されていましたが、今ではさらに強力になりました。」

Googleによると、同社の内部テストによると、2.0 FlashはいくつかのベンチマークでGemini 1.5 Proモデルの2倍の速さで動作し、コーディングや画像分析などの分野で「大幅な」改善が見られました。実際、同社は、より優れた数学性能と「事実に基づく性質」により、2.0 Flashが1.5 Proに取って代わり、Geminiの主力モデルになったと述べています。

2.0 Flashは、テキスト生成をサポートしながら画像を生成および変更できます。モデルは写真、ビデオ、オーディオの録音を読んで、これらの内容に関する質問に答えることもできます。

オーディオ生成は2.0フラッシュのもう1つの重要な機能で、Doshiは「操作可能」で「カスタマイズ可能」と表現しています。たとえば、モデルはさまざまなアクセントや言語に最適化された8つの声でテキストを声に出して読むことができます。

しかし、Googleは2.0 Flashで生成された画像や音声のサンプルを提供していなかったので、その出力品質を他のモデルと比較することは不可能です。

Googleは、自社のSynthIDテクノロジーを使用して、2.0フラッシュで生成されたすべての音声と画像にウォーターマークを付けていると言っています。SynthIDをサポートするソフトウェアやプラットフォーム(つまり、一部のGoogle製品)では、このモデルの出力は合成コンテンツとしてマークされます。

この動きは、誤用に関する懸念を和らげることを目的としています。実際、「ディープフェイク」(ディープフェイク)はますます脅威になりつつあります。認証サービスSumsubのデータによると、世界中で検出されたディープフォージメントの数は、2023年から2024年にかけて4倍に増加しました。

マルチモーダル API

2.0フラッシュ生産性バージョンは来年1月に発売される予定です。しかし同時に、GoogleはMultimodal Live APIと呼ばれるAPIを立ち上げました。これは、開発者がリアルタイムのオーディオとビデオのストリーミング機能を備えたアプリを構築できるようにするためです。

Googleによると、Multimodal Live APIを通じて、開発者はカメラや画面からの音声とビデオの入力を使用して、リアルタイムのマルチモーダルアプリケーションを作成できるとのことです。このAPIは、タスクを完了するためのツール統合をサポートし、OpenAIのリアルタイムAPI機能と同様に、中断などの「自然な会話パターン」を処理できます。

マルチモーダルライブAPIは水曜日の朝に完全に利用可能になりました。

AIエージェント操作ページ

水曜日に、Googleはウェブページの操作を実行できる最初のAIエージェントも発表しました。これは、DeepMind部門が立ち上げたProject Marinerと呼ばれる研究モデルです。Geminiを搭載したこの世代は、ユーザーのChromeブラウザを引き継ぎ、画面にカーソルを移動したり、ボタンをクリックして、フォームに入力したりできるので、人間と同じようにWebサイトを使用したり閲覧したりできます。

グーグルによると、水曜日から、AIエージェントはまず事前に選ばれたテスターの小グループを対象に起動されるということです。

メディアの報道によると、GoogleはGeminiがウェブサイトを読んだり、要約したり、さらには使用したりできるようにするための新しい方法を引き続き試しています。グーグルのある幹部はメディアに、これは「ユーザーエクスペリエンスの新しいパラダイムシフト」を示していると語りました。ユーザーはもはやウェブサイトと直接やり取りするのではなく、ジェネレーティブAIシステムを通じてインタラクションを完了します。

アナリストは、この変化が、TechCrunchのような出版社からウォルマートのような小売業者まで、実際のユーザーをウェブサイトに誘導するために長い間Googleに頼ってきた何百万もの企業に影響を与える可能性があると考えています。

テックメディアのTechCrunchとのプレゼンテーションで、Googleラボのディレクターであるジャクリン・コンゼルマンは、プロジェクト・マリナーの仕組みを説明しました。

Chromeブラウザに拡張機能をインストールすると、ブラウザの右側にチャットウィンドウが表示されます。ユーザーは、「このリストに基づいてスーパーマーケットでショッピングカートを作成する」などのタスクを実行するようにエージェントに指示できます。

その後、AIエージェントはスーパーマーケットのウェブサイトに移動し、商品を検索して仮想ショッピングカートに追加します。明らかな問題の1つは、エージェントが遅いことです。カーソルを動かすたびに約5秒の遅延があります。エージェントはタスクを中断してチャットウィンドウに戻り、特定の項目(必要なニンジンの数など)についての説明を求めることがあります。

Googleのエージェントは、クレジットカード番号や請求情報を入力していないため、チェックアウトを完了できません。さらに、Project Marinerはクッキーを受け付けたり、ユーザー向けの利用規約に署名したりしません。Googleによると、これはユーザーをより適切に管理するための考慮事項であり、エージェントにこれらの操作を意図的に許可しなかったとのことです。

バックグラウンドで、Googleのエージェントがユーザーのブラウザウィンドウのスクリーンショットを撮り(ユーザーは利用規約でこれに同意する必要があります)、クラウドのGeminiに送信して処理します。その後、Geminiはウェブをナビゲートする指示をユーザーのコンピューターに送り返します。

Project Marinerは、フライトやホテルの検索、家庭用品のお買い物、レシピの検索など、現在ユーザーがウェブページをクリックしないと完了できないタスクにも使用できます。

ただし、Project MarinerはChromeブラウザのフロントエンドのアクティビティタブでのみ機能します。つまり、エージェントがバックグラウンドで実行されている場合、ユーザーはコンピューターを使って他のことをすることはできず、代わりにGeminiがゆっくりとクリックして操作するのを見る必要があります。Google DeepMindの最高技術責任者であるKoray Kavukcuogluは、GoogleのAIエージェントが何をしているのかをユーザーに知らせるのは非常に意図的な決定だと言いました。

コンゼルマンは言った、

「[Project Mariner] は、私たちが今目にしている根本的な新しいユーザーエクスペリエンスのパラダイムシフトを示しています。これらすべてをユーザーがウェブとやり取りする方法を変え、パブリッシャーがユーザーとエージェントにエクスペリエンスを提供する方法を変える正しい方法を模索する必要があります。」

AIエージェントはリサーチをしたり、コードを書いたり、ゲームに慣れたりします

プロジェクトマリナーに加えて、Googleは水曜日に、特定のタスクに特化したいくつかの新しいAIエージェントも発表しました。

あるAIエージェント、Deep Researchは、多段階の研究プログラムを作成することで、ユーザーが複雑な研究を研究できるようにすることを目的としています。多段階推論も可能なOpenAIのO1と競合しているようです。しかし、Googleの広報担当者は、エージェントは数学的・論理的推論問題の解決、コードの記述、データ分析には使用されなかったと述べています。ディープリサーチは現在ジェミニアドバンスドで利用でき、2025年にジェミニアプリを発売する予定です。

難しい質問や大規模な質問を受けた場合、Deep Researchは質問に答えるための多段階のアクションプランを作成します。ユーザーがプランを承認すると、Deep Researchは質問に答え、ウェブを検索し、詳細な調査レポートを生成するのに数分かかります。

もう1つの新しいAIエージェント、Julesは、開発者がコードタスクを完了できるようにすることを目的としています。GitHubのワークフローに直接統合されるので、Julesは既存の作業を確認したり、GitHubで直接変更を加えたりできます。Julesは現在、少数のテスターが利用でき、2025年後半にリリースされる予定です。

最後に、Google DeepMindは、ゲームAIの作成における長年の経験に基づいて、ユーザーがゲームに慣れるのに役立つAIエージェントを開発していると言いました。GoogleはSupercellのようなゲーム開発者と協力して、クラッシュ・オブ・クランのようなゲームの世界を説明するジェミニの能力をテストしています。

AIが生成した要約

水曜日に、Googleはジェミニ2.0モデルに基づいてAIが生成した要約機能「AI概要」もリリースしました。特定のGoogle検索クエリに提供される要約コンテンツは、まもなく「より複雑なトピック」だけでなく、「マルチモーダル」や「マルチステップ」の検索コンテンツも処理できるようになります。Googleによると、これには高度な数学の問題とプログラミングの問題が含まれます。

新しいAIレビュー機能は今週限定テストを開始し、来年初めに広く展開される予定です。

しかし、今年の春に開始されて以来、AI Reviewsは多くの論争を巻き起こし、それが提供した疑わしい発言や提案(ピザの糊付けを勧めるなど)のいくつかは、オンラインで話題を呼んでいます。SEOプラットフォームSE Rankingの最近のレポートによると、AI Reviewsは、時代遅れの研究や有料商品リストなど、「完全に信頼できない、または証拠に基づいていない」ウェブサイトを挙げています。

アナリストは、主な問題は、AIの概要では、情報源が事実なのか、フィクションなのか、皮肉なのか、シリアスな内容なのかを見分けるのが難しいことだと考えています。過去数ヶ月の間に、GoogleはAI概要の仕組みを変え、時事問題や健康に関するトピックに関する回答を制限しました。しかし、Googleはこの機能が完璧だとは主張していません。

それにもかかわらず、Googleは、特にGoogleの主要なターゲットグループである18歳から24歳の主要ユーザーグループの間で、AIオーバービューが検索エンゲージメントを高めたと述べました。

最新のAIアクセラレータチップであるTrilliumは、Gemini 2.0専用です

Googleは水曜日に第6世代のAIアクセラレータチップTrilliumを発表しました。チップのパフォーマンスの向上はAI開発の経済モデルを根本的に変える可能性があると主張しました。

このカスタムプロセッサは、Googleの最新のGemini 2.0 AIモデルのトレーニングに使用されます。そのトレーニング性能は前世代の4倍で、エネルギー消費量を大幅に削減しています。

GoogleのCEO、Sundar Pichai(Sundar Pichai)は発表記事で、Googleは10万個を超えるトリリウムチップを単一のネットワーク構造に接続し、世界で最も強力なAIスーパーコンピューターの1つを形成したと説明しました。

Trilliumは複数の面で大きな進歩を遂げました。前モデルと比較して、このチップの各チップのピークコンピューティングパフォーマンスは4.7倍に向上し、高帯域幅のメモリ容量とチップ間の相互接続帯域幅は2倍になりました。さらに重要なのは、エネルギー効率が 67% 向上したことです。これは、データセンターがAIトレーニングに膨大なエネルギー需要に対応する際の重要な指標です。

Trilliumの商業的影響は、パフォーマンス指標だけにとどまりません。グーグルは、前世代のチップと比較して、このチップはトレーニングパフォーマンスを1ドルあたり2.5倍向上させたと主張しています。これはAI開発の経済モデルを変える可能性があります。

アナリストは、TrilliumのリリースによりAIハードウェアの分野での競争が激化したと考えていますが、Nvidiaは長い間GPUベースのソリューションで優位に立ってきました。Nvidiaのチップは今でも多くのAIアプリケーションの業界標準ですが、Googleのカスタムチップアプローチは、特定のワークロード、特に非常に大規模なモデルのトレーニングには有利かもしれません。

他のアナリストは、カスタムチップ開発へのGoogleの巨額の投資は、AIインフラストラクチャの重要性に対するGoogleの戦略的賭けを反映していると言います。Trilliumをクラウドのお客様に提供するというGoogleの決定は、クラウドAI市場での競争力を高め、Microsoft AzureやAmazon AWSと激しく競争したいと考えていることを示しています。テクノロジー業界全体にとって、Trilliumのリリースは、AIハードウェアの覇権をめぐる戦いが新たな段階に入っていることを示しています。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする