英國(guó)倫敦大學(xué)學(xué)院名譽(yù)教授彼得·本特利指出,,蒸餾技術(shù)對(duì)一些不具備OpenAI或谷歌這樣巨額研發(fā)預(yù)算的小型機(jī)構(gòu)的研究進(jìn)展將會(huì)產(chǎn)生重大影響。一位美國(guó)科技巨頭公司AI相關(guān)項(xiàng)目開發(fā)人員認(rèn)為,,蒸餾類似Llama這樣的開源模型是有合理性的,,因?yàn)檫@樣能加速大模型的迭代,避免資源浪費(fèi),。他還提到,,全球許多AI初創(chuàng)公司也使用多種大模型的蒸餾融合技術(shù),形成所謂的“多專家模型”,,這種模型有可能在性能方面超越原始模型,,因?yàn)樗哂懈鼜?qiáng)的泛化能力和豐富信息,提升最終性能,。
關(guān)鍵問題在于為何同樣是在蒸餾開源模型的基礎(chǔ)上,,DeepSeek能夠脫穎而出,,以低廉的成本實(shí)現(xiàn)高性能,。他認(rèn)為,DeepSeek完美平衡了多專家模型,、訓(xùn)練時(shí)長(zhǎng),、預(yù)訓(xùn)練和后訓(xùn)練等工作,使得投入和產(chǎn)出達(dá)到高效值,。但也有人指出,,過度依賴蒸餾技術(shù)會(huì)導(dǎo)致研發(fā)人員放棄對(duì)基礎(chǔ)模型的探索。上海交通大學(xué)副教授劉鵬飛曾提到,,雖然蒸餾技術(shù)帶來了直接且可見的好處,,但它掩蓋了一系列深刻的挑戰(zhàn),無法提出根本性的解決方案,。
AI芯片巨頭英偉達(dá)公司發(fā)表聲明,,稱DeepSeek發(fā)布的新模型是一項(xiàng)出色的AI進(jìn)步,,符合美國(guó)技術(shù)出口管制規(guī)定
2025-01-29 05:00:03英偉達(dá)回應(yīng)DeepSeek模型