清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合趨境科技發(fā)布了KTransformers開源項(xiàng)目的重大更新,,成功打破了大模型推理算力的門檻,。這次更新支持在24G顯存(4090D)的設(shè)備上本地運(yùn)行DeepSeek-R1、V3的671B滿血版,。
KTransformers項(xiàng)目的核心在于異構(gòu)計(jì)算策略,。通過稀疏性利用,MoE架構(gòu)每次僅激活部分專家模塊,,團(tuán)隊(duì)將非共享的稀疏矩陣卸載至CPU內(nèi)存,,并結(jié)合高速算子處理,使顯存占用壓縮至24GB,。此外,,項(xiàng)目采用了4bit量化技術(shù),配合Marlin GPU算子,,效率提升了3.87倍,;CPU端通過llamafile實(shí)現(xiàn)多線程并行,預(yù)處理速度達(dá)到286 tokens/s。CUDA Graph加速減少了CPU/GPU通信開銷,,單次解碼只需一次完整的CUDA Graph調(diào)用,,生成速度可達(dá)14 tokens/s。
這一突破帶來的影響顯著,。傳統(tǒng)方案中,,使用8卡A100服務(wù)器的成本超過百萬,按需計(jì)費(fèi)每小時(shí)數(shù)千元,。而現(xiàn)在,,單卡RTX 4090方案的整機(jī)成本約為2萬元,功耗僅為80W,,非常適合中小團(tuán)隊(duì)和個(gè)人開發(fā)者,。NVIDIA RTX 4090運(yùn)行DeepSeek-R1滿血版的案例不僅展示了技術(shù)奇跡,,也是開源精神與硬件潛能結(jié)合的典范,。這證明了在AI快速發(fā)展的時(shí)代,創(chuàng)新往往源于對(duì)“不可能”的挑戰(zhàn),。
就在DeepSeek在華爾街和應(yīng)用下載榜上引起轟動(dòng)的同時(shí),,深度求索公司在除夕夜再次推出了新的產(chǎn)品
2025-02-01 13:13:44清華翟季冬2月5日,,聯(lián)想集團(tuán)與沐曦股份聯(lián)合發(fā)布了基于DeepSeek大模型的一體機(jī)解決方案
2025-02-05 16:24:07聯(lián)想聯(lián)合沐曦發(fā)布DeepSeek一體機(jī)解決方案