英國倫敦大學學院名譽教授彼得·本特利指出,,蒸餾技術(shù)對一些不具備OpenAI或谷歌這樣巨額研發(fā)預(yù)算的小型機構(gòu)的研究進展將會產(chǎn)生重大影響。一位美國科技巨頭公司AI相關(guān)項目開發(fā)人員認為,,蒸餾類似Llama這樣的開源模型是有合理性的,,因為這樣能加速大模型的迭代,,避免資源浪費。他還提到,,全球許多AI初創(chuàng)公司也使用多種大模型的蒸餾融合技術(shù),,形成所謂的“多專家模型”,這種模型有可能在性能方面超越原始模型,,因為它具有更強的泛化能力和豐富信息,,提升最終性能。
關(guān)鍵問題在于為何同樣是在蒸餾開源模型的基礎(chǔ)上,,DeepSeek能夠脫穎而出,,以低廉的成本實現(xiàn)高性能。他認為,,DeepSeek完美平衡了多專家模型,、訓練時長、預(yù)訓練和后訓練等工作,,使得投入和產(chǎn)出達到高效值,。但也有人指出,過度依賴蒸餾技術(shù)會導致研發(fā)人員放棄對基礎(chǔ)模型的探索,。上海交通大學副教授劉鵬飛曾提到,,雖然蒸餾技術(shù)帶來了直接且可見的好處,但它掩蓋了一系列深刻的挑戰(zhàn),,無法提出根本性的解決方案,。
阿里云通義千問超大規(guī)模的MoE模型Qwen2.5-Max于1月29日凌晨正式上線。該模型是阿里云通義團隊對MoE模型的最新成果,,預(yù)訓練數(shù)據(jù)超過20萬億tokens
2025-01-30 13:16:20阿里新模型聲稱超越DeepSeekAI芯片巨頭英偉達公司發(fā)表聲明,稱DeepSeek發(fā)布的新模型是一項出色的AI進步,,符合美國技術(shù)出口管制規(guī)定
2025-01-29 05:00:03英偉達回應(yīng)DeepSeek模型