ChatGPT最新的高級語音模式現在可以實時對視頻和屏幕共享內容作出響應。聖誕將至,語音功能還新增了聖誕老人模式。
ChatGPT的高級語音模式(AVM)現在有視頻和屏幕共享功能了!該功能將於週四開始向付費的ChatGPT Plus和Pro訂閱者推出,企業和教育客戶則將於一月份獲得該功能。
在「12 Days of OpenAI」活動的第六天,這家人工智能初創公司宣佈,ChatGPT可以識別攝像頭拍攝到的或設備屏幕上顯示的物體,並通過其高級語音模式功能進行響應。用戶可以使用手機攝像頭與ChatGPT聊天,模型將「看到」您所看到的內容。
此前,OpenAI在5月份推出GPT-4o模型時就預告了該功能。該初創公司表示,AVM由OpenAI的原生多模式4o模型提供支持,這意味着它可以處理音頻輸入,並以自然的對話方式做出響應。
OpenAI的視頻模式感覺就像視頻通話,因爲ChatGPT會實時響應用戶在視頻中顯示的內容。它可以看到用戶周圍的事物,識別物體,甚至記住自我介紹的人。在直播中,該公司首席產品官(CPO)Kevin Weil和其他團隊成員演示了ChatGPT協助如何製作手衝咖啡。他們通過將攝像機對準衝咖啡的動作,AVM引導團隊完成了沖泡過程,證明它了解咖啡機的原理。
另外,ChatGPT還可以識別屏幕上的內容。在演示中,OpenAI研究人員觸發了屏幕共享,然後打開消息應用程序,請求ChatGPT幫助回覆通過短信收到的照片。
這一期待已久的消息是在谷歌推出下一代旗艦模型Gemini 2.0的一天後發佈的。新的Gemini 2.0還可以處理視覺和音頻輸入,並具有更多代理功能,這意味着它可以代表用戶執行多步驟任務。 Gemini 2.0的代理功能目前有三個不同名稱的研究原型:用於通用AI助手的Project Astra、用於特定AI任務的Project Mariner ,以及用於開發人員的Project Jules。
另外,上週,微軟也發佈了Copilot Vision的預覽版,它可以讓Pro訂閱者在瀏覽網頁時打開Copilot聊天。 Copilot Vision可以查看屏幕上的照片,甚至可以幫忙玩地圖猜謎遊戲。谷歌的Project Astra也可以用同樣的方式讀取瀏覽器。
OpenAI也不甘示弱,其演示展示了ChatGPT的視覺模式如何準確識別物體,甚至是可中斷的,其中還包括語音模式下的聖誕老人語音選項,聲音低沉、歡快,還有很多「ho-ho-hos(呵呵呵)」。用戶可以通過點擊ChatGPT中的雪花圖標與OpenAI版本的聖誕老人聊天。媒體開玩笑說道,目前尚不清楚到底是真正的聖誕老人爲AI訓練貢獻了自己的聲音,還是OpenAI在未經事先同意的情況下使用了他的聲音。
此前,具有視覺功能的高級語音模式已被多次推遲。據報道,部分原因是OpenAI在準備好之前就早早宣佈了該功能。今年4月,OpenAI承諾將在「幾周內」向用戶推出高級語音模式。幾個月後,該公司仍表示需要更多時間。