計(jì)算機(jī)視覺(jué)國(guó)際大會(huì) ICCV 2025 論文錄用結(jié)果公布,,小米兩篇論文成功入選,。這兩篇論文分別是視頻理解大模型核心技術(shù) Q-Frame 和持續(xù)學(xué)習(xí)框架 Analytic Subspace Routing (Any-SSR)。ICCV 與 CVPR,、ECCV 并稱為計(jì)算機(jī)領(lǐng)域世界三大頂級(jí)學(xué)術(shù)會(huì)議,,每?jī)赡昱e辦一次,。ICCV 2025 年投稿量達(dá) 11239 篇,錄用率為 24%,。
Q-Frame 是小米 AI 團(tuán)隊(duì)自研的技術(shù),,解決了傳統(tǒng)“均勻幀采樣”處理方式中時(shí)間碎片化信息丟失,、盲目采樣及算力浪費(fèi)等問(wèn)題。Q-Frame 是行業(yè)首個(gè)動(dòng)態(tài)幀選擇與分辨率自適應(yīng)框架,,無(wú)需訓(xùn)練即可即插即用,。其三大創(chuàng)新包括跨模態(tài)查詢檢索、查詢感知幀選擇和多分辨率自適應(yīng),。在 MLVU 評(píng)測(cè)集上,,Q-Frame 使 Qwen2-VL 的理解準(zhǔn)確率從 55.5% 提升至 65.4%;在 LongVideoBench 上,,GPT-4o 的準(zhǔn)確率從 53.3% 提升到 58.6%,。此外,,Q-Frame 可以根據(jù)內(nèi)容重要性和查詢需求動(dòng)態(tài)調(diào)整幀分辨率,,避免算力浪費(fèi)。Q-Frame 具有廣泛的適用性,,可與市場(chǎng)上現(xiàn)有的各類視頻理解大模型兼容,,無(wú)論是開(kāi)源還是閉源模型。在小米“人車(chē)家全生態(tài)”戰(zhàn)略中,,Q-Frame 有著多元的應(yīng)用場(chǎng)景,,如哨兵模式、智能家居監(jiān)控和小愛(ài)視頻問(wèn)答等,。
Any-SSR 框架是小米 AI 團(tuán)隊(duì)聯(lián)合華南理工大學(xué)研發(fā)的成果,,用于解決大語(yǔ)言模型在持續(xù)學(xué)習(xí)中的災(zāi)難性遺忘問(wèn)題。Any-SSR 將遞歸最小二乘法引入大語(yǔ)言模型持續(xù)學(xué)習(xí),,通過(guò)分析路由機(jī)制將不同任務(wù)分配到獨(dú)立子空間學(xué)習(xí),,避免了任務(wù)間知識(shí)干擾。同時(shí),,結(jié)合低秩適應(yīng)技術(shù),,實(shí)現(xiàn)了新舊知識(shí)的無(wú)縫整合與動(dòng)態(tài)學(xué)習(xí)。實(shí)驗(yàn)表明,,Any-SSR 在 TRACE 基準(zhǔn)測(cè)試上的表現(xiàn)顯著優(yōu)于其他方法,,不僅在整體性能上取得了優(yōu)異成績(jī),還實(shí)現(xiàn)了零反向知識(shí)轉(zhuǎn)移,。
小米集團(tuán)在過(guò)去五年投入約 1020 億元用于研發(fā),,其中 2025 年的 300 億研發(fā)投入中,約四分之一將被用于 AI 相關(guān)方向,。未來(lái)五年(2026-2030 年),,小米還將在核心技術(shù)賽道再投入 2000 億元。