DeepSeek又有重大突破開源大模型性能卓越

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-21 22:05:22 觀察者網(wǎng)

DeepSeek發(fā)布了新一代開源大模型DeepSeek-R1。該模型在數(shù)學(xué),、代碼,、自然語(yǔ)言推理等任務(wù)上的性能與美國(guó)OpenAI公司的最新o1大模型相當(dāng),。根據(jù)數(shù)據(jù)，DeepSeek-R1在算法類代碼場(chǎng)景（Codeforces）和知識(shí)類測(cè)試（GPQA,、MMLU）中的得分略低于OpenAI o1,，但在工程類代碼場(chǎng)景（SWE-Bench Verified）,、美國(guó)數(shù)學(xué)競(jìng)賽（AIME 2024, MATH）項(xiàng)目上表現(xiàn)更優(yōu),。

與之前發(fā)布的DeepSeek-V3相比，DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,，其他方面也有所提升,。深度求索更新了用戶協(xié)議，明確模型開源許可將使用標(biāo)準(zhǔn)的MIT許可,，并允許用戶利用模型輸出訓(xùn)練其他模型,。數(shù)據(jù)顯示，在基于DeepSeek-R1進(jìn)行“蒸餾”的6個(gè)小模型中,，32B和70B模型在多項(xiàng)能力上對(duì)標(biāo)了OpenAI的o1-mini,。

深度求索表示，DeepSeek-R1后訓(xùn)練階段大量使用了強(qiáng)化學(xué)習(xí)技術(shù),，在極少人工標(biāo)注數(shù)據(jù)的情況下顯著提升了模型推理能力,，幾乎跳過(guò)了監(jiān)督微調(diào)步驟。這使得DeepSeek-R1能夠自我優(yōu)化,，生成更符合人類偏好的內(nèi)容,。盡管強(qiáng)化學(xué)習(xí)需要大量反饋且計(jì)算成本高，但其優(yōu)勢(shì)在于不依賴高質(zhì)量的人工標(biāo)注數(shù)據(jù),。

值得注意的是,，深度求索還開發(fā)了一個(gè)完全通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)替代監(jiān)督微調(diào)的大模型DeepSeek-R1-Zero，但因存在一些問(wèn)題未對(duì)外公開,。工作人員發(fā)現(xiàn),，在自我學(xué)習(xí)過(guò)程中，DeepSeek-R1-Zero出現(xiàn)了復(fù)雜行為,，如自我反思,、評(píng)估先前步驟、自發(fā)尋找替代方案的情況,，甚至有一次“尤里卡時(shí)刻”,。這種現(xiàn)象表明模型學(xué)會(huì)了用擬人化的語(yǔ)氣進(jìn)行自我反思，并主動(dòng)為問(wèn)題分配更多時(shí)間重新思考,。

盡管DeepSeek-R1-Zero展示出強(qiáng)大的推理能力,，但也出現(xiàn)了一些語(yǔ)言混亂及可讀性問(wèn)題。為此,，深度求索引入數(shù)千條高質(zhì)量冷啟動(dòng)數(shù)據(jù)和多段強(qiáng)化學(xué)習(xí)來(lái)解決這些問(wèn)題,，最終推出了正式版的DeepSeek-R1,。目前，DeepSeek-R1 API服務(wù)定價(jià)為每百萬(wàn)輸入tokens 1元（緩存命中）/4元（緩存未命中）,，每百萬(wàn)輸出tokens 16元,。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

DeepSeek又有重大突破 開源大模型性能卓越

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek又有重大突破開源大模型性能卓越