還不如人類五歲小孩,,難度為零的視覺測(cè)試,,GPT-4o卻挑戰(zhàn)失敗了
近期的研究探討了GPT-4o,、Claude 3.5 Sonnet等視覺語(yǔ)言模型(VLM)在圖像理解方面的能力,。盡管這些先進(jìn)的模型在處理人類行為識(shí)別,、物品識(shí)別等復(fù)雜場(chǎng)景時(shí)表現(xiàn)出色,,但在一系列基礎(chǔ)視覺任務(wù)上的表現(xiàn)卻差強(qiáng)人意,。研究通過7項(xiàng)涉及基本幾何形狀的任務(wù)測(cè)試發(fā)現(xiàn),,這些VLM的平均準(zhǔn)確率僅有56.2%,顯示出它們更像是基于線索推測(cè)而非真正“觀看”,。相關(guān)論文以“Vision language models are blind”為標(biāo)題,,已在arXiv網(wǎng)站發(fā)布。
研究中,,即便是辨認(rèn)線條交叉點(diǎn)數(shù)量,、圓圈是否重疊這類對(duì)人類來說極為直觀的任務(wù),VLM的完成度也并不理想,。比如,,在識(shí)別交叉線數(shù)量時(shí),最高準(zhǔn)確率不過77.33%,,且隨著線條間距縮小,,其性能下滑。同樣,,判斷圓圈重疊時(shí),,沒有模型能達(dá)到完美,且圓圈間距減小時(shí),,錯(cuò)誤率增加,,表明VLM在捕捉細(xì)微差異上存在困難。
此外,,VLM在識(shí)別被圈定字母,、重疊形狀數(shù)量等任務(wù)上的表現(xiàn)亦暴露出不足。它們雖然能夠正確拼寫被圈字母所在的單詞,,卻難以準(zhǔn)確指出被圈的究竟是哪個(gè)字母,,有時(shí)還會(huì)錯(cuò)誤地生成不存在的字符。在計(jì)數(shù)重疊或嵌套的幾何圖形時(shí),,模型往往依賴訓(xùn)練數(shù)據(jù)中的常見模式(如奧運(yùn)五環(huán)標(biāo)志)進(jìn)行猜測(cè),,導(dǎo)致準(zhǔn)確性受限。
值得注意的是,,VLM在識(shí)別網(wǎng)格的行列數(shù)以及計(jì)算單色路徑數(shù)量的任務(wù)上也面臨挑戰(zhàn),,僅在加入輔助信息(如網(wǎng)格內(nèi)填充文本)后,,其表現(xiàn)才有所提升,但仍遠(yuǎn)未達(dá)到完美,。這暗示著VLM在無文本輔助的純粹視覺推理上存在局限,。
研究者認(rèn)為,當(dāng)前VLM采用的晚期融合方法可能是其視覺理解能力受限的關(guān)鍵因素,,未來的研究或許應(yīng)探索早期融合策略,,即在模型處理的更早階段結(jié)合視覺和語(yǔ)言信息,以期提升其圖像理解的精準(zhǔn)度,。此外,,針對(duì)特定任務(wù)對(duì)模型進(jìn)行微調(diào)也被視為一個(gè)潛在的研究方向,旨在培養(yǎng)出在視覺理解上更為高效的VLM,。
還不如人類五歲小孩,,難度為零的視覺測(cè)試,GPT-4o卻挑戰(zhàn)失敗了,。
OpenAI在5月14日凌晨發(fā)布了其最新的旗艦AI模型GPT-4o,該模型標(biāo)志著AI技術(shù)的一個(gè)重要里程碑,,并計(jì)劃推出PC桌面版ChatGPT
2024-05-14 09:22:27GPT-4o深夜炸場(chǎng),!AI實(shí)時(shí)視頻通話絲滑如人類在5月14日的線上“春季更新”活動(dòng)中,,美國(guó)OpenAI公司揭曉了其新旗艦?zāi)P汀狦PT-4o,,標(biāo)志著在人機(jī)交互領(lǐng)域的重要進(jìn)展
2024-05-14 08:06:10Open新模型:絲滑如真人