12月25日,,阿里云發(fā)布了業(yè)界首個開源多模態(tài)推理模型QVQ-72B-Preview,。該模型在視覺理解和推理能力方面表現(xiàn)出色,,特別是在解決數(shù)學,、物理、科學等領(lǐng)域的復雜問題上尤為突出,。多項評測數(shù)據(jù)顯示,,QVQ的表現(xiàn)超越了此前的視覺理解模型Qwen2-VL,與OpenAI o1,、Claude3.5 Sonnet等推理模型相當,。目前,開發(fā)者可以在魔搭社區(qū)和HuggingFace平臺上直接體驗這一模型,。
人類的推理能力源于語言思維和視覺記憶,,因此利用視覺理解增強大模型的推理能力成為AI技術(shù)的重要探索方向。阿里云表示,,QVQ是一個基于視覺進行深度思考和推理的大模型,。它不僅能更準確地感知視覺內(nèi)容并進行細致分析,還會質(zhì)疑自身假設(shè),,仔細審視推理過程中的每一步,,最終給出深思熟慮后的結(jié)論。QVQ可以輕松識別“梗圖”內(nèi)涵,,通過真實照片合理推斷物體數(shù)量及高度等信息,,并在面對數(shù)學、物理,、化學等科學難題時,,像人甚至科學家一樣提供思考過程和準確答案。
阿里mPLUG團隊近期發(fā)布了一項新成果——通用多模態(tài)大模型mPLUG-Owl3,,這款模型專為理解復雜多圖和長視頻內(nèi)容設(shè)計
2024-08-19 17:47:52阿里發(fā)通用多模態(tài)大模型mPLUG-Owl3執(zhí)掌阿里云一周年,,吳泳銘終于登上了2024年云棲大會的演講臺,,他表示,過去22個月,,AI發(fā)展的速度超過任何歷史時期,。
2024-09-20 14:48:09阿里CEO吳泳銘稱阿里云將繼續(xù)降價當?shù)貢r間12月11日,,谷歌CEO桑達爾·皮查伊發(fā)布了一份說明,宣布推出Gemini 2.0,,這是他們最強大的模型
2024-12-12 07:52:45谷歌AI大模型Gemini2.0發(fā)布