在5月14日的凌晨,,OpenAI舉辦了一場名為“春季更新”的線上活動,,期間揭曉了他們的新旗艦生成式AI模型——GPT-4o。這個模型名稱中的“o”蘊含深意,,取自英文“Omni”,,寓意著“全能”或“涵蓋一切”,體現(xiàn)了技術(shù)的廣度與深度,。
GPT-4o的一大亮點在于它對語音交互的細膩捕捉,。它不僅能夠無縫融入或中斷對話,還能精妙識別發(fā)言者的情緒與語氣,,根據(jù)不同的場景或命令,,生成多樣化的音調(diào)回復(fù),這些回復(fù)富含人性化的感情色彩,,甚至能應(yīng)用戶要求演唱歌曲。
視覺處理能力上,,GPT-4o實現(xiàn)了顯著飛躍,。當前,它已能夠辨認并翻譯多種語言的菜單圖片,,未來展望中,,這項技術(shù)或?qū)⑹笴hatGPT具備“觀賞”實況體育賽事并解析規(guī)則的能力。此外,,GPT-4o在圖像處理上更進一步,,不僅限于識別印刷文字,對手寫體同樣駕輕就熟,,能解決數(shù)學(xué)方程,、分析數(shù)據(jù),,并解讀面部表情背后的情感。
語言處理能力方面,,GPT-4o展現(xiàn)了其強大的多語言支持,,目前可與用戶通過20種語言進行音頻等形式的互動,最新升級極大地增強了其多語言服務(wù),,涉及的語言種類擴展至約50種,。
數(shù)據(jù)處理與性能方面,GPT-4o對比前代GPT-4Turbo及其他競爭模型,,展現(xiàn)出顯著的優(yōu)勢,,傳統(tǒng)基準測試結(jié)果證明了其卓越性能。
情感智能也是GPT-4o的一大突破,。在演示中,,當用戶表達緊張情緒時,GPT-4o以類似朋友的口吻進行安慰,,并引導(dǎo)用戶進行深呼吸放松,,實時分析呼吸聲以給出恰當建議,實現(xiàn)了交互體驗的情感共鳴,。
響應(yīng)速度方面,,GPT-4o的提升令人矚目,最快可在232毫秒內(nèi)反饋對話,,平均響應(yīng)時間僅320毫秒,,幾近人類自然交流的速度,極大提升了與ChatGPT交流的流暢度,,較GPT-3.5有質(zhì)的飛躍,。
值得注意的是,GPT-4o在一定范圍內(nèi)提供了免費使用的機會,。它在英語及編程領(lǐng)域的表現(xiàn)與GPT-4Turbo持平,,非英語文本處理能力顯著增強,同時,,API速度加快,,速率限制放寬五倍,成本卻降低了50%,,踐行了OpenAI讓更多人免費體驗高端AI技術(shù)的愿景,。
OpenAI的高層對GPT-4o寄予厚望,認為它是通向更自然人機交互的重要一步,,展示了多模態(tài)交互的更高境界,,彰顯了OpenAI在這一領(lǐng)域的前沿地位和技術(shù)領(lǐng)導(dǎo)力。
OpenAI在5月14日凌晨發(fā)布了其最新的旗艦AI模型GPT-4o,,該模型標志著AI技術(shù)的一個重要里程碑,并計劃推出PC桌面版ChatGPT
2024-05-14 09:22:27GPT-4o深夜炸場,!AI實時視頻通話絲滑如人類