中國人工智能初創(chuàng)公司DeepSeek在過去一周成為硅谷熱議的對象,并觸發(fā)了本周一美國科技股的大幅下跌。1月29日,,OpenAI聲稱發(fā)現證據表明DeepSeek使用其專有模型來訓練自己的開源模型,,暗示這可能違反了OpenAI的服務條款,。但OpenAI沒有具體說明這些證據,。根據OpenAI的服務條款,,用戶不能“復制”其任何服務或“使用其輸出來開發(fā)與OpenAI競爭的模型”,。
OpenAI的模型系統(tǒng)是封閉的,,但個人用戶仍可付費接入其編程接口獲取數據,。截至發(fā)稿時,DeepSeek尚未對此事作出回應,。此前,,美國政府表示正在組織專家緊急評估DeepSeek的技術及其影響。美國白宮AI和加密貨幣事務負責人David Sacks提到,,未來幾個月內,,美國領先的人工智能公司將采取措施,試圖防止其他公司對“蒸餾技術”的獲取,。
DeepSeek模型的技術突破引起了美國總統(tǒng)特朗普的關注,。特朗普表示,這款中國AI應用程序應該成為美國公司的“激勵因素”,。他認為如果中國能夠開發(fā)出更便宜的人工智能技術,,美國公司也會效仿,以減少成本并找到相同的解決方案,。
數據蒸餾是一種業(yè)內常見的技術做法,,通過一系列算法和策略將原始復雜的數據進行去噪、降維,、提煉等操作,,從而得到更為精煉、有用的數據,。這種技術旨在將復雜模型的知識提煉到簡單模型中,。據DeepSeek-V3的技術文檔顯示,該模型使用數據蒸餾技術生成的高質量數據提升了訓練效率,。通過已有的高質量模型合成少量高質量數據作為新模型的訓練數據,,從而達到接近于在原始數據上訓練的效果。
一位計算機研究人員解釋說,,以前的大模型訓練相當于題海戰(zhàn)術,,在大量數據中訓練;而蒸餾則相當于讓優(yōu)秀大模型充當新模型的老師,,篩選出有效題目,,再讓新的大模型訓練。不過有學者認為,,蒸餾技術存在“隱性天花板”,,雖然可以提高模型訓練效率,,但開發(fā)的模型無法超越基礎模型的能力,尤其在多模態(tài)數據方面效果不佳,。然而,,DeepSeek的模型打破了這種觀念,其水平已經能與原始的基礎模型相提并論,。1月28日凌晨,,DeepSeek發(fā)布了最新視覺模型Janus-Pro,在多模態(tài)理解和文生圖指令遵從能力方面顯著提升,,并在多個基準上超越了DALL-E 3與Stable Diffusion,。
英國倫敦大學學院名譽教授彼得·本特利指出,蒸餾技術對一些不具備OpenAI或谷歌這樣巨額研發(fā)預算的小型機構的研究進展將會產生重大影響,。一位美國科技巨頭公司AI相關項目開發(fā)人員認為,,蒸餾類似Llama這樣的開源模型是有合理性的,因為這樣能加速大模型的迭代,,避免資源浪費,。他還提到,,全球許多AI初創(chuàng)公司也使用多種大模型的蒸餾融合技術,,形成所謂的“多專家模型”,這種模型有可能在性能方面超越原始模型,,因為它具有更強的泛化能力和豐富信息,,提升最終性能。
關鍵問題在于為何同樣是在蒸餾開源模型的基礎上,,DeepSeek能夠脫穎而出,,以低廉的成本實現高性能。他認為,,DeepSeek完美平衡了多專家模型,、訓練時長、預訓練和后訓練等工作,,使得投入和產出達到高效值,。但也有人指出,過度依賴蒸餾技術會導致研發(fā)人員放棄對基礎模型的探索,。上海交通大學副教授劉鵬飛曾提到,,雖然蒸餾技術帶來了直接且可見的好處,但它掩蓋了一系列深刻的挑戰(zhàn),,無法提出根本性的解決方案,。
阿里云通義千問超大規(guī)模的MoE模型Qwen2.5-Max于1月29日凌晨正式上線,。該模型是阿里云通義團隊對MoE模型的最新成果,預訓練數據超過20萬億tokens
2025-01-30 13:16:20阿里新模型聲稱超越DeepSeek在過去兩年的一系列出版物中,,高盛認為生成式人工智能可以提高勞動生產率和全球增長,,主要因為它能夠自動完成大量工作任務。高盛估計,,在廣泛采用該技術后,,美國的勞動生產率和GDP水平將累計上漲15%
2025-02-06 22:11:05高盛AI芯片巨頭英偉達公司發(fā)表聲明,稱DeepSeek發(fā)布的新模型是一項出色的AI進步,,符合美國技術出口管制規(guī)定
2025-01-29 05:00:03英偉達回應DeepSeek模型