清華大學KVCache.AI團隊聯合趨境科技發(fā)布了KTransformers開源項目的重大更新,,成功打破了大模型推理算力的門檻,。這次更新支持在24G顯存(4090D)的設備上本地運行DeepSeek-R1、V3的671B滿血版,。
KTransformers項目的核心在于異構計算策略。通過稀疏性利用,,MoE架構每次僅激活部分專家模塊,,團隊將非共享的稀疏矩陣卸載至CPU內存,,并結合高速算子處理,使顯存占用壓縮至24GB,。此外,,項目采用了4bit量化技術,配合Marlin GPU算子,,效率提升了3.87倍,;CPU端通過llamafile實現多線程并行,預處理速度達到286 tokens/s,。CUDA Graph加速減少了CPU/GPU通信開銷,單次解碼只需一次完整的CUDA Graph調用,,生成速度可達14 tokens/s,。
這一突破帶來的影響顯著,。傳統方案中,,使用8卡A100服務器的成本超過百萬,按需計費每小時數千元,。而現在,單卡RTX 4090方案的整機成本約為2萬元,,功耗僅為80W,,非常適合中小團隊和個人開發(fā)者。NVIDIA RTX 4090運行DeepSeek-R1滿血版的案例不僅展示了技術奇跡,,也是開源精神與硬件潛能結合的典范,。這證明了在AI快速發(fā)展的時代,創(chuàng)新往往源于對“不可能”的挑戰(zhàn),。
在ChatGPT掀起全球AI熱潮兩年后,,大模型領域迎來了一位新星——DeepSeek,。憑借高性能、低成本以及完全開源的特點,,DeepSeek迅速吸引了公眾的目光,,成為市場上的“鯰魚”
2025-02-14 17:24:33從DeepSeek看AI趨勢進入2月份以來,受DeepSeek引發(fā)的本地部署大模型等因素驅動,,上市公司機構調研的重點轉向了AI大模型,、AI算力、人形機器人等領域
2025-02-16 13:09:04機構扎堆調研AI板塊就在DeepSeek在華爾街和應用下載榜上引起轟動的同時,,深度求索公司在除夕夜再次推出了新的產品
2025-02-01 13:13:44清華翟季冬自2024年起,,人工智能產業(yè)見證了顯著的轉型期。據統計,,截至同年10月9日,,共有188個人工智能大模型通過網信辦備案,意味著這些模型具備上線提供服務的資格
2024-10-13 02:57:00大模型企業(yè)分化2月5日,,聯想集團與沐曦股份聯合發(fā)布了基于DeepSeek大模型的一體機解決方案
2025-02-05 16:24:07聯想聯合沐曦發(fā)布DeepSeek一體機解決方案