OpenAI發佈會進入第5天,帶來了ChatGPT與Apple設備的集成升級。用戶無需ChatGPT賬號就能在設置中啓用Apple Intelligence擴展,體驗Siri的複雜任務轉交、內容創作、iPhone 16視覺智能模式,以及macOS上的快捷調用功能。
演示內容也很簡單:用戶對Siri說「讓ChatGPT…」後,請求即被ChatGPT接管;長按iPhone 16側邊攝像頭控制鍵打開相機,點擊「ask」調用ChatGPT分析拍攝內容;在macOS雙擊Command鍵激活ChatGPT,快速分析提煉長PDF文檔信息。
直播僅持續12分鐘,由於大多早已在Apple的demo中見過,整體看來平平無奇。
而今天真正的高光時刻,來自Google。
當地時間早晨,Sundar Pichai、Demis Hassabis和Koray Kavukcuoglu聯合發文,重磅官宣Google迄今最強大、專門適配全新「代理時代」的下一代模型Gemini 2.0。並正式發佈該系列首個版本:Gemini 2.0 Flash實驗版。
性能超1.5 Pro,多模態重大突破,原生工具集成
Gemini 2.0 Flash以低延遲和增強性能爲核心,代表了Google在AI模型開發領域的最高水平。
相比前代模型,Gemini 2.0 Flash 在保持快速響應的基礎上性能顯著提升。在MMLU、編程、數學、推理等關鍵基準測試中不僅超越了1.5 Pro的表現,速度更提升了一倍。
多模態方面,2.0 Flash實現了跨越式進展:除支持圖像、視頻、音頻等多模態輸入外,還新增了多模態輸出功能,包括原生的圖文混合生成和多語言文本轉語音。
同時,模型還能原生調用Google搜索、執行程序代碼,並支持用戶自定義的第三方工具接入。
開發者支持:多模態實時 API
爲幫助開發者構建更豐富的動態交互應用,Google同步推出了一款新的多模態實時API,支持實時音視頻流輸入和多工具組合調用。
目前,開發者可通過Google AI Studio和Vertex AI平台使用2.0 Flash實驗版的多模態輸入和文本輸出功能。而文本轉語音和原生圖像生成功能暫時僅向早期合作伙伴開放,預計將在明年1月實現更大範圍的功能開放和模型版本更新。
全球用戶可用,新增研究利器Deep Research
在用戶端,2.0 Flash實驗版已整合至Gemini聊天助手中,全球用戶可以通過桌面和移動網頁版的模型下拉菜單訪問,移動應用集成也將於不久後推出。
Google 正在搜索中的 AI 概覽功能中測試 Gemini 2.0 的高級推理能力,以幫助解答更復雜和多步驟的問題,並計劃在明年初擴展到更多Google產品中。
特別值得一提的是,針對 Advanced 付費用戶,Google 今天還推出一項全新的 Deep Research功能。
它專爲複雜在線研究設計,能在用戶提出問題後基於Gemini 1.5 Pro自動創建多步驟研究計劃,收集和分析全網相關信息,並根據反饋不斷優化,最終生成一份包含深入信息和準確來源的綜合報告。大幅簡化繁瑣耗時的研究過程,堪稱科研工作者福音,PhD狂喜。
爲「Agent 元年」打造的AI模型
Gemini 2.0系列模型定位鮮明,直接就是「AI model for the agentic era」 。
Pichai表示,過去一年Google一直專注於開發具備更強代理能力的模型,這類模型能深入理解用戶所處環境,具備多步預判思維,並在監督下執行相應操作。結合此前發佈的 Genie 2,Google 的空間智能和世界模型願景已顯露無疑。
Hassabis更直言 2025 年將是「Agent 元年」,稱Gemini 2.0 Flash的原生用戶界面交互、多模態推理、長上下文理解、複雜指令執行與規劃、函數調用組合以及原生工具使用等,將使其成爲未來agent式工作的核心支持模型,進一步接近打造「通用助手」的願景。
本次發佈中,Google 展示了一系列基於 2.0 Flash 新能力的原型項目進展,包括:
Project Astra:現實世界中的通用智能助手
今年I/O大會上,Google首次展示了具備多模態理解能力、支持即時語音交互的Project Astra。得益於Gemini 2.0的加持和Android測試者的反饋,最新版本的Astra實現了以下關鍵升級:
• 對話能力全面提升:支持多語言及混合語言交流,能更準確理解不同口音和生僻詞彙。
• 工具調用升級:原生集成Google搜索、Lens和地圖功能,顯著提升了在日常生活中的實用性。
• 記憶增強:能在對話中保持更豐富的上下文信息,支持長達10分鐘的會話記憶,爲用戶帶來更加個性化的交互體驗。
• 延遲優化:通過新一代流媒體和音頻理解技術,將響應速度提升至接近人類對話水平。
Project Mariner:瀏覽器中的複雜任務助手
Project Mariner是Google探索人機交互未來的實驗性agent產品,專注於提升瀏覽器內複雜任務的處理能力。
依託Gemini 2.0的先進推理能力,它能夠全面理解和分析瀏覽器屏幕上的各類信息,包括像素數據、文本內容、代碼片段、圖片素材和表單元素等,並通過一個實驗性的 Chrome 擴展來幫助用戶完成任務。
在衡量agent完成真實網頁任務能力的WebVoyager基準測試中,Mariner作爲單一agent系統取得了83.5%的領先成績。
不過,該項目在精確度和響應速度方面仍有提升空間。爲確保使用安全,Mariner的操作權限被嚴格限制,對於在線購物等敏感操作必須經過用戶確認,以此在安全性和效率間取得平衡。
Jules:爲開發者設計的 AI 編程助手
Jules 是一款面向開發者的 AI 驅動代碼agent,直接集成到 GitHub 工作流中。得益於 Gemini 2.0 的改進,Jules 可以在開發者的指導和監督下處理問題、制定計劃並執行代碼任務。這一項目旨在探索 AI agent如何在開發者社區中增強生產力,併爲未來跨領域的 AI 應用鋪平道路。
遊戲agent:打通虛擬與現實邊界
Google還分享了一些原型的隱藏彩蛋。
例如在遊戲領域, Gemini 2.0支持的智能agent展示了其在虛擬環境中的強大適應性。不僅能實時分析和推理屏幕動作,還能爲玩家提供戰略建議。
此前DeepMind推出的Genie 2能從單張圖像生成無限可玩的3D遊戲世界,而與Supercell等開發商合作的遊戲agent則在策略和模擬遊戲中展示了出色的規則理解和問題解決能力。結合Google搜索功能,這些agent還能爲玩家提供豐富的遊戲知識支持。
Gemini 2.0的空間智能潛力
此外,Gemini 2.0在1.5版本的基礎上,將空間理解能力提升到了新的高度。通過AI Studio推出的全新工具集,開發者可以更便捷地探索融合多模態推理的空間智能應用,這不僅體現在虛擬場景中,更可以延伸至機器人等物理世界應用領域。
核心能力提升包括:
• 快速空間分析:能以超低延遲識別和分析圖像中物體的空間位置關係
• 智能物體識別:支持圖內搜索和匹配,即便是隱藏或模糊的細節也能準確找出
• 多語言空間標註:結合空間信息實現智能多語言標註和翻譯
• 空間邏輯理解:掌握物體之間的空間關聯,比如實物和對應的影子
• 3D空間重建:首次將2D照片轉換爲可交互的3D俯視圖
在以上演示中,Gemini 2.0展現了多個令人印象深刻的應用場景:從識別摺紙動物及其投影,到匹配特定圖案的襪子,再到提供物品的雙語標註,以及分析現實場景中的問題解決方案。尤其是新引入的3D空間理解功能,雖仍處於早期階段,卻已展現出將平面圖像轉化爲立體可交互場景的潛力,爲開發者開啓了更廣闊的應用想象空間。
與OpenAI今天小打小鬧的發佈會相比,Google帶來的Gemini 2.0不僅支棱起來,而且是憑實力穩穩贏了一局。
Pichai表示,目前已有數百萬開發者在使用Gemini構建項目,而Google自身也正藉助Gemini重塑旗下七大核心產品,用戶群體高達20億。
此次Gemini 2.0的推出標誌着AI正從單純的信息理解向實際任務執行轉變,朝着"通用助手"的目標邁進。坐擁第六代TPU和新發布的量子計算機Willow,Google更像是扮演推動算力極限、實現生產力躍升、引領AGI發展的那個關鍵角色。