在OpenAI首次演示七個月後,它現在推出可以理解實時視頻的功能。
智通財經獲悉,在首次公開演示將近七個月後,OpenAI正式面向廣大付費用戶推出ChatGPT類人高級人工智能(AI)語音助手的新功能,實時視頻對話。在週四的直播中,該公司表示,ChatGPT類似人類的對話功能Advanced Voice Mode正在實現。Advanced Voice由OpenAI的多模態模型GPT-4o支持。
OpenAI宣佈,在ChatGPT的移動端應用程序App中,上線ChatGPT高級語音模式Advanced Voice的視頻和共享屏幕功能,即使用ChatGPT應用程序,訂閱ChatGPT Plus、 Team或Pro的用戶可以將他們的手機指向對象,並讓ChatGPT近乎實時地響應。
OpenAI的研究員在直播中演示了任何運用新功能,點擊ChatGPT 聊天欄旁邊的語音圖標,然後點擊左下角的視頻圖標,就可以啓動視頻對話。如果想共享屏幕,手機用戶要點擊打開一個有三個喧囂的菜單,選擇其中的「共享屏幕」。Advanced Voice可以通過屏幕共享來理解設備屏幕上的內容。例如,它可以解釋各種設置菜單,或者對數學問題給出建議。
OpenAI表示,大多數ChatGPT Plus和 Pro套餐的訂閱用戶以及所有Team用戶都將可以在今後幾天內通過ChatGPT的App訪問週四推出的新功能,預計歐盟、瑞士、冰島、挪威和列支敦士登的 ChatGPT Plus 和 Pro 用戶也將很快可以運用新功能。ChatGPT的企業版和教育版Enterprise和Edu將於明年1月上線新功能。
Advanced Voice已經被推遲了好幾次,據報道部分原因是OpenAI在產品準備就緒之前就宣佈了這項功能。今年4月,OpenAI承諾,「Advanced Voice」將在「幾周內」向用戶推出。幾個月後,該公司表示需要更多時間。
OpenAI在6月末向一小批Plus計劃用戶推出該語音模式,6月又宣佈推遲一個月發佈,以便確保該功能安全有效地處理來自數百萬用戶的請求。當時OpenAI稱,計劃今年秋季讓所有Plus用戶都可以訪問該功能,確切的時間表取決於是否達到內部對安全性和可靠性的高標準。7月末,OpenAI對有限的部分付費Plus用戶推出高級語音模式下的ChatGPT,稱語音模式無法模仿他人的說話方式,且增加了新的過濾器,保證軟件能夠發現並拒絕某些生成音樂或其他形式受版權保護音頻的請求。
此外,谷歌(GOOGL.US)和Meta(META.US)等競爭對手也在爲各自的聊天機器人產品開發類似的功能。本週,谷歌推出了實時視頻分析對話式人工智能功能Project Astra,供一群「值得信賴的測試者」使用。