隨著OpenAI在2024年5月14日的展示,GPT-4o這一多模態(tài)大模型產(chǎn)品進(jìn)入了公眾視野,,標(biāo)志著信息獲取方式可能迎來變革,。這款被螞蟻集團(tuán)副總裁徐鵬譽(yù)為在超自然交互領(lǐng)域取得巨大進(jìn)步的工具,集視覺,、音頻理解等技能于一身,,其“全能”(o代表omni)特性讓人聯(lián)想到電影《她》中描繪的人機(jī)情感互動未來。
GPT-4o的核心競爭力在于其實(shí)時多模態(tài)處理能力,,能夠迅速在音頻,、視覺和文本間進(jìn)行推理,輸入輸出形式多樣,,響應(yīng)時間貼近人類對話速度,。OpenAI的CTO米拉·穆拉蒂強(qiáng)調(diào)了該模型的即時性和情感感知能力,預(yù)示著更自然的人機(jī)交互將成為現(xiàn)實(shí),。
盡管業(yè)內(nèi)有人對GPT-4o持保留意見,,如獵豹移動CEO傅盛指出的,,它未完全滿足人工智能領(lǐng)域的期待,,但他也認(rèn)可GPT-4o通過整合多種交互模式,減少了用戶在不同媒介間的切換,,特別是其語音助手功能,,展現(xiàn)了端到端大模型技術(shù)在情感感知與適時回應(yīng)上的潛力。
徐鵬在采訪中闡述,,GPT-4o相較于GPT-4的顯著提升在于多模態(tài)的深度整合及快速響應(yīng),,這不僅要求高超的數(shù)據(jù)組織與工程優(yōu)化,也為交互設(shè)計(jì)開辟了新天地,。他指出,,OpenAI正朝著語音與語言理解深度融合的方向努力,,GPT-4o正是這一路線的產(chǎn)物,其能力基礎(chǔ)可追溯至早期的自動語音識別系統(tǒng)Whisper,。
在谷歌推出Gemini模型后,,OpenAI與之在原生多模態(tài)技術(shù)的競爭加劇。原生多模態(tài)模型的訓(xùn)練涉及音頻,、視頻,、圖像等多種數(shù)據(jù),與“拼湊多模態(tài)”模型形成對比,。GPT-4o的推出,,展現(xiàn)了OpenAI在工程實(shí)現(xiàn)上的顯著進(jìn)步,盡管背后強(qiáng)大的算力需求和高昂成本也引發(fā)了業(yè)內(nèi)的討論,。
科技投資人熊偉銘推測,,GPT-4o的成功離不開龐大的計(jì)算資源支持,同時也提出,,未來如GPT-5的發(fā)展可能會面臨更多挑戰(zhàn),,尤其是在成本與技術(shù)創(chuàng)新的平衡上。
在商業(yè)化探索方面,,OpenAI正逐步向用戶提供GPT-4o的功能體驗(yàn),,旨在通過免費(fèi)與付費(fèi)服務(wù)相結(jié)合的模式,既收集寶貴數(shù)據(jù)以持續(xù)優(yōu)化產(chǎn)品,,又培養(yǎng)用戶的付費(fèi)習(xí)慣,,這一策略被視作可能改變用戶對AI平臺使用習(xí)慣的先鋒嘗試。
同時,,行業(yè)觀察者如信也科技的陳磊認(rèn)為,,GPT-4o的發(fā)布具有跨時代意義,其真正的挑戰(zhàn)在于商業(yè)化落地與持續(xù)創(chuàng)新,,特別是在推理歸納能力上的突破,,這是實(shí)現(xiàn)更高智能的關(guān)鍵。面對OpenAI的領(lǐng)先步伐,,國內(nèi)企業(yè)需尋找差異化的競爭路徑,,不斷追趕并探索超越之道。
總的來說,,GPT-4o的問世不僅是技術(shù)上的飛躍,,更是對未來人機(jī)交互模式及信息獲取方式的一次深刻啟示,其商業(yè)應(yīng)用潛力與對行業(yè)格局的影響值得持續(xù)關(guān)注,。
北京時間周二凌晨1點(diǎn),,OpenAI召開了春季發(fā)布會,由首席技術(shù)官米拉·穆拉蒂主持,,為市場帶來了幾項(xiàng)與ChatGPT相關(guān)的重大更新
2024-05-14 07:24:51OpenAI發(fā)布GPT-4o在周二凌晨1點(diǎn)的春季發(fā)布會上,,OpenAI繼“文生視頻模型”Sora后再次為市場帶來新驚喜
2024-05-14 09:07:05OpenAI新模型:圖文音頻全搞定