還不如人類五歲小孩,，難度為零的視覺測試,，GPT-4o卻挑戰(zhàn)失敗了

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-07-15 15:15:33 學(xué)術(shù)頭條

近期的研究探討了GPT-4o、Claude 3.5 Sonnet等視覺語言模型（VLM）在圖像理解方面的能力,。盡管這些先進(jìn)的模型在處理人類行為識別,、物品識別等復(fù)雜場景時表現(xiàn)出色，但在一系列基礎(chǔ)視覺任務(wù)上的表現(xiàn)卻差強人意,。研究通過7項涉及基本幾何形狀的任務(wù)測試發(fā)現(xiàn),，這些VLM的平均準(zhǔn)確率僅有56.2%，顯示出它們更像是基于線索推測而非真正“觀看”,。相關(guān)論文以“Vision language models are blind”為標(biāo)題,，已在arXiv網(wǎng)站發(fā)布。

研究中,，即便是辨認(rèn)線條交叉點數(shù)量,、圓圈是否重疊這類對人類來說極為直觀的任務(wù)，VLM的完成度也并不理想,。比如,，在識別交叉線數(shù)量時，最高準(zhǔn)確率不過77.33%,，且隨著線條間距縮小,，其性能下滑。同樣,，判斷圓圈重疊時,，沒有模型能達(dá)到完美，且圓圈間距減小時,，錯誤率增加,，表明VLM在捕捉細(xì)微差異上存在困難。

此外,，VLM在識別被圈定字母,、重疊形狀數(shù)量等任務(wù)上的表現(xiàn)亦暴露出不足。它們雖然能夠正確拼寫被圈字母所在的單詞,，卻難以準(zhǔn)確指出被圈的究竟是哪個字母,，有時還會錯誤地生成不存在的字符,。在計數(shù)重疊或嵌套的幾何圖形時，模型往往依賴訓(xùn)練數(shù)據(jù)中的常見模式（如奧運五環(huán)標(biāo)志）進(jìn)行猜測,，導(dǎo)致準(zhǔn)確性受限,。

值得注意的是，VLM在識別網(wǎng)格的行列數(shù)以及計算單色路徑數(shù)量的任務(wù)上也面臨挑戰(zhàn),，僅在加入輔助信息（如網(wǎng)格內(nèi)填充文本）后，其表現(xiàn)才有所提升,，但仍遠(yuǎn)未達(dá)到完美,。這暗示著VLM在無文本輔助的純粹視覺推理上存在局限。

研究者認(rèn)為,，當(dāng)前VLM采用的晚期融合方法可能是其視覺理解能力受限的關(guān)鍵因素,，未來的研究或許應(yīng)探索早期融合策略，即在模型處理的更早階段結(jié)合視覺和語言信息,，以期提升其圖像理解的精準(zhǔn)度,。此外，針對特定任務(wù)對模型進(jìn)行微調(diào)也被視為一個潛在的研究方向,，旨在培養(yǎng)出在視覺理解上更為高效的VLM,。

還不如人類五歲小孩，難度為零的視覺測試,，GPT-4o卻挑戰(zhàn)失敗了,。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

還不如人類五歲小孩,，難度為零的視覺測試,，GPT-4o卻挑戰(zhàn)失敗了

相關(guān)新聞

今日熱點

頻道熱點