DeepSeek最強專業(yè)拆解來了，清交復(fù)教授超硬核解讀揭秘大模型優(yōu)化之道

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-04 11:58:31 新浪財經(jīng)

DeepSeek的寫作能力為何飛躍？PTX是否真正做到了繞開CUDA的壟斷,？

智東西2月3日報道,，五位高校教授在線上討論了DeepSeek的技術(shù)原理與未來方向，解析其優(yōu)化方法如何提升算力能效,。他們探討了復(fù)現(xiàn)o1大推理模型、DeepSeek R1技術(shù)路線和訓(xùn)練流程亮點、降低成本策略等問題,。

北京交通大學(xué)教授金一主持了這場線上分享。復(fù)旦大學(xué)教授邱錫鵬,、清華大學(xué)長聘副教授劉知遠(yuǎn),、清華大學(xué)教授翟季冬以及上海交通大學(xué)副教授戴國浩分別從不同專業(yè)角度分享了對DeepSeek的思考,，并延伸到對中國大模型高質(zhì)量發(fā)展路徑的啟發(fā)。

邱錫鵬教授主持開發(fā)了國內(nèi)首個開源對話式大語言模型MOSS,。劉知遠(yuǎn)教授是大模型創(chuàng)企面壁智能的首席科學(xué)家,。翟季冬教授是AI基礎(chǔ)設(shè)施創(chuàng)企清程極智的首席科學(xué)家。戴國浩教授是AI基礎(chǔ)設(shè)施創(chuàng)企無問芯穹的聯(lián)合創(chuàng)始人,。

邱錫鵬解讀了R1技術(shù)路線圖,，指出強推理模型最終落腳點是Agent。他提到OpenAI o1是一個非?，F(xiàn)象級的推理模型,，在競賽題目上達(dá)到了人類專家水平。邱錫鵬認(rèn)為,，o1的核心在于強化學(xué)習(xí),，通過預(yù)訓(xùn)練、提示工程,、監(jiān)督微調(diào)等手段讓模型具有初始的類人推理行為,。他還詳細(xì)介紹了R1的技術(shù)路線，包括冷啟動,、推理導(dǎo)向的強化學(xué)習(xí),、拒絕抽樣和監(jiān)督微調(diào)以及適用于所有場景的強化學(xué)習(xí)四個階段。

劉知遠(yuǎn)從宏觀角度介紹DeepSeek R1所代表的大規(guī)模強化學(xué)習(xí)技術(shù)及其基本原理,。他認(rèn)為DeepSeek可能是全球第一個能夠通過純強化學(xué)習(xí)技術(shù)復(fù)現(xiàn)OpenAI o1能力的團隊,，并開源發(fā)布詳細(xì)技術(shù)介紹。劉知遠(yuǎn)強調(diào),，DeepSeek的意義在于它展示了深度思考的能力,，類似于2023年初的“ChatGPT時刻”，讓大家感受到大模型的能力又邁進了一步,。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek最強專業(yè)拆解來了，清交復(fù)教授超硬核解讀 揭秘大模型優(yōu)化之道

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek最強專業(yè)拆解來了，清交復(fù)教授超硬核解讀揭秘大模型優(yōu)化之道