GPT-4o為OpenAI開啟超級入口多模態(tài)交互新時代？

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2024-05-15 08:45:10 新浪

隨著OpenAI在2024年5月14日的展示,，GPT-4o這一多模態(tài)大模型產(chǎn)品進入了公眾視野，標志著信息獲取方式可能迎來變革。這款被螞蟻集團副總裁徐鵬譽為在超自然交互領域取得巨大進步的工具,，集視覺,、音頻理解等技能于一身,，其“全能”（o代表omni）特性讓人聯(lián)想到電影《她》中描繪的人機情感互動未來,。

GPT-4o的核心競爭力在于其實時多模態(tài)處理能力，能夠迅速在音頻,、視覺和文本間進行推理,，輸入輸出形式多樣，響應時間貼近人類對話速度,。OpenAI的CTO米拉·穆拉蒂強調(diào)了該模型的即時性和情感感知能力,，預示著更自然的人機交互將成為現(xiàn)實。

盡管業(yè)內(nèi)有人對GPT-4o持保留意見,，如獵豹移動CEO傅盛指出的,，它未完全滿足人工智能領域的期待，但他也認可GPT-4o通過整合多種交互模式，減少了用戶在不同媒介間的切換,，特別是其語音助手功能,，展現(xiàn)了端到端大模型技術在情感感知與適時回應上的潛力。

徐鵬在采訪中闡述,，GPT-4o相較于GPT-4的顯著提升在于多模態(tài)的深度整合及快速響應,，這不僅要求高超的數(shù)據(jù)組織與工程優(yōu)化，也為交互設計開辟了新天地,。他指出,，OpenAI正朝著語音與語言理解深度融合的方向努力，GPT-4o正是這一路線的產(chǎn)物,，其能力基礎可追溯至早期的自動語音識別系統(tǒng)Whisper,。

在谷歌推出Gemini模型后，OpenAI與之在原生多模態(tài)技術的競爭加劇,。原生多模態(tài)模型的訓練涉及音頻,、視頻、圖像等多種數(shù)據(jù),，與“拼湊多模態(tài)”模型形成對比,。GPT-4o的推出，展現(xiàn)了OpenAI在工程實現(xiàn)上的顯著進步,，盡管背后強大的算力需求和高昂成本也引發(fā)了業(yè)內(nèi)的討論,。

科技投資人熊偉銘推測，GPT-4o的成功離不開龐大的計算資源支持,，同時也提出，未來如GPT-5的發(fā)展可能會面臨更多挑戰(zhàn),，尤其是在成本與技術創(chuàng)新的平衡上,。

12 全文共 2 頁下一頁

關閉

GPT-4o為OpenAI開啟超級入口 多模態(tài)交互新時代？

相關新聞

今日熱點

頻道熱點

GPT-4o為OpenAI開啟超級入口多模態(tài)交互新時代？