還不如人類五歲小孩,,難度為零的視覺測試,GPT-4o卻挑戰(zhàn)失敗了
近期的研究探討了GPT-4o,、Claude 3.5 Sonnet等視覺語言模型(VLM)在圖像理解方面的能力,。盡管這些先進的模型在處理人類行為識別,、物品識別等復雜場景時表現(xiàn)出色,但在一系列基礎視覺任務上的表現(xiàn)卻差強人意,。研究通過7項涉及基本幾何形狀的任務測試發(fā)現(xiàn),,這些VLM的平均準確率僅有56.2%,顯示出它們更像是基于線索推測而非真正“觀看”,。相關論文以“Vision language models are blind”為標題,,已在arXiv網(wǎng)站發(fā)布。
研究中,,即便是辨認線條交叉點數(shù)量,、圓圈是否重疊這類對人類來說極為直觀的任務,VLM的完成度也并不理想,。比如,,在識別交叉線數(shù)量時,最高準確率不過77.33%,,且隨著線條間距縮小,,其性能下滑。同樣,,判斷圓圈重疊時,,沒有模型能達到完美,且圓圈間距減小時,,錯誤率增加,,表明VLM在捕捉細微差異上存在困難。
此外,,VLM在識別被圈定字母、重疊形狀數(shù)量等任務上的表現(xiàn)亦暴露出不足,。它們雖然能夠正確拼寫被圈字母所在的單詞,,卻難以準確指出被圈的究竟是哪個字母,有時還會錯誤地生成不存在的字符,。在計數(shù)重疊或嵌套的幾何圖形時,,模型往往依賴訓練數(shù)據(jù)中的常見模式(如奧運五環(huán)標志)進行猜測,導致準確性受限,。
值得注意的是,,VLM在識別網(wǎng)格的行列數(shù)以及計算單色路徑數(shù)量的任務上也面臨挑戰(zhàn),僅在加入輔助信息(如網(wǎng)格內(nèi)填充文本)后,,其表現(xiàn)才有所提升,,但仍遠未達到完美。這暗示著VLM在無文本輔助的純粹視覺推理上存在局限,。
研究者認為,,當前VLM采用的晚期融合方法可能是其視覺理解能力受限的關鍵因素,,未來的研究或許應探索早期融合策略,即在模型處理的更早階段結合視覺和語言信息,,以期提升其圖像理解的精準度,。此外,針對特定任務對模型進行微調(diào)也被視為一個潛在的研究方向,,旨在培養(yǎng)出在視覺理解上更為高效的VLM,。
還不如人類五歲小孩,難度為零的視覺測試,,GPT-4o卻挑戰(zhàn)失敗了,。
張遠是本期節(jié)目的沖榜歌手,,作為出道多年的歌手,,他終于登上了夢寐以求的舞臺,。他也挺敢的,直接向孫楠發(fā)起挑戰(zhàn),,一首《說謊》滿滿的感情,。
2024-06-21 22:29:41張遠挑戰(zhàn)孫楠OpenAI在5月14日凌晨發(fā)布了其最新的旗艦AI模型GPT-4o,,該模型標志著AI技術的一個重要里程碑,,并計劃推出PC桌面版ChatGPT
2024-05-14 09:22:27GPT-4o深夜炸場!AI實時視頻通話絲滑如人類5月14日凌晨,,OpenAI推出了GPT-4o,這款新模型集成了聽覺,、視覺與語言處理能力,,能夠實時分析音頻、視覺及文本信息,,并以任意組合方式輸出文本,、音頻或圖像內(nèi)容
2024-05-16 15:57:44為什么說GPT-4o并不驚艷?在5月14日的線上“春季更新”活動中,,美國OpenAI公司揭曉了其新旗艦模型——GPT-4o,標志著在人機交互領域的重要進展
2024-05-14 08:06:10Open新模型:絲滑如真人5月14日深夜,,美國OpenAI公司舉辦線上“春季更新”活動,揭曉兩大核心內(nèi)容:發(fā)布最新旗艦模型GPT-4o及在ChatGPT服務中增添多項免費功能
2024-05-14 07:49:16OpenAI新模型:絲滑如真人