清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合趨境科技發(fā)布了KTransformers開(kāi)源項(xiàng)目的重大更新,,成功打破了大模型推理算力的門(mén)檻。這次更新支持在24G顯存(4090D)的設(shè)備上本地運(yùn)行DeepSeek-R1、V3的671B滿(mǎn)血版。
KTransformers項(xiàng)目的核心在于異構(gòu)計(jì)算策略。通過(guò)稀疏性利用,,MoE架構(gòu)每次僅激活部分專(zhuān)家模塊,,團(tuán)隊(duì)將非共享的稀疏矩陣卸載至CPU內(nèi)存,,并結(jié)合高速算子處理,,使顯存占用壓縮至24GB,。此外,項(xiàng)目采用了4bit量化技術(shù),,配合Marlin GPU算子,,效率提升了3.87倍;CPU端通過(guò)llamafile實(shí)現(xiàn)多線程并行,,預(yù)處理速度達(dá)到286 tokens/s,。CUDA Graph加速減少了CPU/GPU通信開(kāi)銷(xiāo),單次解碼只需一次完整的CUDA Graph調(diào)用,,生成速度可達(dá)14 tokens/s,。
這一突破帶來(lái)的影響顯著。傳統(tǒng)方案中,,使用8卡A100服務(wù)器的成本超過(guò)百萬(wàn),,按需計(jì)費(fèi)每小時(shí)數(shù)千元。而現(xiàn)在,,單卡RTX 4090方案的整機(jī)成本約為2萬(wàn)元,,功耗僅為80W,非常適合中小團(tuán)隊(duì)和個(gè)人開(kāi)發(fā)者,。NVIDIA RTX 4090運(yùn)行DeepSeek-R1滿(mǎn)血版的案例不僅展示了技術(shù)奇跡,,也是開(kāi)源精神與硬件潛能結(jié)合的典范。這證明了在AI快速發(fā)展的時(shí)代,,創(chuàng)新往往源于對(duì)“不可能”的挑戰(zhàn),。
就在DeepSeek在華爾街和應(yīng)用下載榜上引起轟動(dòng)的同時(shí),深度求索公司在除夕夜再次推出了新的產(chǎn)品
2025-02-01 13:13:44清華翟季冬2月5日,聯(lián)想集團(tuán)與沐曦股份聯(lián)合發(fā)布了基于DeepSeek大模型的一體機(jī)解決方案
2025-02-05 16:24:07聯(lián)想聯(lián)合沐曦發(fā)布DeepSeek一體機(jī)解決方案