DeepSeek上周發(fā)布了開源模型DeepSeek-R1,,并聲稱其性能可以與OpenAI的o1正式版相媲美,,這一消息在海外AI業(yè)界引發(fā)了廣泛討論,。焦點在于,當開源模型的能力達到甚至超越最新的閉源模型時,,可能會改變整個大模型的競爭格局。
根據(jù)DeepSeek的介紹,,DeepSeek-R1在Codeforces,、GPQA Diamond、MATH-500,、MMLU,、SWE-bench Verified等測試中的得分接近或超過o1正式版。該模型在后訓練階段大規(guī)模應用了強化學習技術,,在僅有少量標注數(shù)據(jù)的情況下顯著提升了推理能力,。
Meta首席AI科學家Yann Lecun認為,DeepSeek-R1的發(fā)布意味著開源大模型正在超越閉源模型,,而不是單純地表明中國公司在AI領域超越美國公司,。他表示,DeepSeek將從開放研究和開源中受益,,類似于Meta的PyTorch和Llama,。通過提出新想法并在他人工作的基礎上進行實現(xiàn),由于這些工作是公開和開源的,,每個人都能從中獲益,,這就是開放研究和開源的力量。
短短一個月內,,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外阿里云通義千問超大規(guī)模的MoE模型Qwen2.5-Max于1月29日凌晨正式上線,。該模型是阿里云通義團隊對MoE模型的最新成果,,預訓練數(shù)據(jù)超過20萬億tokens
2025-01-30 13:16:20阿里新模型聲稱超越DeepSeek近日,,一則關于AI的新聞在全球范圍內引起了廣泛關注,。斯坦福大學和華盛頓大學的研究人員發(fā)表了一篇論文,展示了他們以不到50美元(約364元)的云計算費用訓練出的一款名為S1的推理模型
2025-02-08 09:05:58364元就能開發(fā)DeepSeek模型