share_log

直击WAIC 丨 商汤科技发布“日日新5o”,实时多模态交互对标GPT-4o

直擊WAIC 丨 商湯科技發佈“日日新5o”,實時多模態交互對標GPT-4o

新浪科技 ·  07/05 22:33

新浪科技訊 7月6日上午消息,2024世界人工智能大會期間,商湯科技發佈“日日新5o”大模型,交互體驗對標GPT-4o,通過整合跨模態信息,基於聲音、文本、圖像和視頻等多種形式,實現全新的AI交互模式,即實時的流式多模態交互。

例如,工作人員僅是和“日日新5o”打個招呼,它就自動識別出工作人員脖子佩戴的胸卡帶子上的字眼,判斷出現場就是世界人工智能大會會場,並表示在這個地方可以“好好學習”。對於可愛的小狗玩偶,“日日新5o”也能準確描述了小狗的外貌、表情以及重要穿戴。

此外,隨便翻開一本書的任何一頁,“日日新5o”也能自動介紹,不是簡單的OCR識別文字,而是識別圖文給出好理解的總結,真正做到實時交互。

能聽會看更會找話題,據悉,這種交互模式可適用於實時對話和語音識別等應用,其多任務適應性強,能夠在同一模型中自然處理多種任務,且根據不同上下文自適應調整行爲和輸出,能夠實現對標GPT-4o的交互體驗,是源於“日日新5.5”基礎模型能力的全面提升。(文猛)

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論