率先掀起生成式AI新革命的OpenAI今(14)日稍早發表了最新一代模型GPT-4o,後面的o為英文字母,是omni的縮寫,代表可以處理文字、聲音、圖片和影片的能力。從示範影片來看,逼近科幻感的回應能力,即時的反應速度就像是跟真人聊天,支援即時翻譯,已經不單是翻譯,還能調整口氣,宛如有翻譯官的存在。鏡頭內看到蛋糕還能幫用戶一起唱生日快樂,語氣上也會相當高亢充滿溫度。看完示範影片,真的會覺得超神!新模型免費版能使用,但初期只會開放限定區域使用。

我是廣告 請繼續往下閱讀
趕在Google IO大會之前,OpenAI先推出GPT-4o全新模型,可以即時對音樂、圖片、文字進行推理回覆。官網指出,GPT-4o期望邁向更自然的人機互動,可以在最短232毫秒、平均320毫秒的時間內回應問題,和人類的反應時間相近,如果比較之前的模式,GPT-3.5延遲時間2.8秒,GPT-4為5.4秒,GPT-4o延遲的時間僅0.32秒,確實相當驚人。

▲OpenAI推出GPT-4o全新模型,可以直接視訊對話,像是進行面試的服裝準備。(圖/翻攝影片)
▲OpenAI推出GPT-4o全新模型,可以直接視訊對話,像是請GPT-4o進行面試的服裝建議。(圖/翻攝影片)
在示範影內可以看到可以兩台GPT-4o互相聊天或是唱歌,還可以使用視訊鏡頭進行面試服裝上的準備。如果看到鏡頭內有生日蛋糕,會自動辨識是生日的聚餐,提供與生日相關的對話。在即時翻譯的部分變得更強,可以直接轉譯其他語言,甚至還能變化口氣,中間等待期非常短,讓雙方可以即時理解他人的語言,從影片的快速的翻譯效果來看,可說是目前最強的即時翻譯。

▲GPT-4o辨識到蛋糕和對話內容後,還能唱生日快樂歌。(圖/翻攝影片)
▲GPT-4o辨識到蛋糕和對話內容後,還能唱生日快樂歌。(圖/翻攝影片)
根據OpenAI說法,GPT-4o能夠理解用戶的表情與語氣,知道什麼時候該如何做出回應,並能在不同的語氣間切換。OpenAI在官網內提到,GPT-4雖然也能辨識圖像、進行文字語音轉換等服務,但OpenAI過去將這些功能放在不同的模型之中,導致回應時間更長,而GPT-4o則將這些功能全部整合在一個模型裡。讓速度可以更快,與現有模型相比,GPT-4o 在視覺和音訊理解方面更加精準,且講話的口氣更接近人類。

▲GPT-4o能提供即時口譯。(圖/翻攝影片)
▲GPT-4o能提供即時口譯,且轉譯的速度相當快。(圖/翻攝影片)
官方大方的開放所有免費用戶可以使用GPT-4o,但現階段只有部分地區可以使用,尚未全面開放,而以GPT-4o為基礎的語音服務,預計會在下個月提供訂閱用戶測試版。與此同時,OpenAI也宣佈為網頁版推出更新的ChatGPT UI,聲稱具有更對話式的主界面及訊息呈現。