DeepSeek發(fā)布了新一代開(kāi)源大模型DeepSeek-R1,。該模型在數(shù)學(xué),、代碼、自然語(yǔ)言推理等任務(wù)上的性能與美國(guó)OpenAI公司的最新o1大模型相當(dāng)。根據(jù)數(shù)據(jù),,DeepSeek-R1在算法類代碼場(chǎng)景(Codeforces)和知識(shí)類測(cè)試(GPQA、MMLU)中的得分略低于OpenAI o1,,但在工程類代碼場(chǎng)景(SWE-Bench Verified),、美國(guó)數(shù)學(xué)競(jìng)賽(AIME 2024, MATH)項(xiàng)目上表現(xiàn)更優(yōu)。
與之前發(fā)布的DeepSeek-V3相比,,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,,其他方面也有所提升。深度求索更新了用戶協(xié)議,,明確模型開(kāi)源許可將使用標(biāo)準(zhǔn)的MIT許可,,并允許用戶利用模型輸出訓(xùn)練其他模型。數(shù)據(jù)顯示,,在基于DeepSeek-R1進(jìn)行“蒸餾”的6個(gè)小模型中,,32B和70B模型在多項(xiàng)能力上對(duì)標(biāo)了OpenAI的o1-mini。
深度求索表示,,DeepSeek-R1后訓(xùn)練階段大量使用了強(qiáng)化學(xué)習(xí)技術(shù),,在極少人工標(biāo)注數(shù)據(jù)的情況下顯著提升了模型推理能力,幾乎跳過(guò)了監(jiān)督微調(diào)步驟,。這使得DeepSeek-R1能夠自我優(yōu)化,,生成更符合人類偏好的內(nèi)容。盡管強(qiáng)化學(xué)習(xí)需要大量反饋且計(jì)算成本高,,但其優(yōu)勢(shì)在于不依賴高質(zhì)量的人工標(biāo)注數(shù)據(jù),。
值得注意的是,深度求索還開(kāi)發(fā)了一個(gè)完全通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)替代監(jiān)督微調(diào)的大模型DeepSeek-R1-Zero,,但因存在一些問(wèn)題未對(duì)外公開(kāi),。工作人員發(fā)現(xiàn),在自我學(xué)習(xí)過(guò)程中,,DeepSeek-R1-Zero出現(xiàn)了復(fù)雜行為,,如自我反思、評(píng)估先前步驟,、自發(fā)尋找替代方案的情況,,甚至有一次“尤里卡時(shí)刻”。這種現(xiàn)象表明模型學(xué)會(huì)了用擬人化的語(yǔ)氣進(jìn)行自我反思,,并主動(dòng)為問(wèn)題分配更多時(shí)間重新思考,。
盡管DeepSeek-R1-Zero展示出強(qiáng)大的推理能力,但也出現(xiàn)了一些語(yǔ)言混亂及可讀性問(wèn)題,。為此,,深度求索引入數(shù)千條高質(zhì)量冷啟動(dòng)數(shù)據(jù)和多段強(qiáng)化學(xué)習(xí)來(lái)解決這些問(wèn)題,,最終推出了正式版的DeepSeek-R1。目前,,DeepSeek-R1 API服務(wù)定價(jià)為每百萬(wàn)輸入tokens 1元(緩存命中)/4元(緩存未命中),,每百萬(wàn)輸出tokens 16元。