“木頭姐”談DeepSeek啟示創(chuàng)新訓(xùn)練方法啟發(fā)思考

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-01 15:57:07 鳳凰網(wǎng)

大家好,，我是很帥的狐貍,。最近幾天DeepSeek的消息引起了廣泛關(guān)注,。這家公司以極低成本訓(xùn)練出一個(gè)名為R1的模型,，其性能甚至可以媲美OpenAI的頂級(jí)推理模型o1,。這一消息導(dǎo)致英偉達(dá)股價(jià)下跌,，市場開始質(zhì)疑訓(xùn)練AI是否真的需要大量資金投入,。

讓我感到最有趣的是DeepSeek的訓(xùn)練方法,。R1不同于普通的大語言模型,，它具有一定的推理能力,，可以通過增加“思維鏈”來提高答案質(zhì)量，特別是在理工科題目上,。傳統(tǒng)上,，要讓大語言模型具備這種能力，通常是在基礎(chǔ)模型上通過監(jiān)督微調(diào)（SFT）來實(shí)現(xiàn),，類似于學(xué)生通過大量練習(xí)和參考答案學(xué)習(xí)解題方法,。

然而，DeepSeek在訓(xùn)練R1-Zero時(shí)采用了強(qiáng)化學(xué)習(xí)（RL）的方法,。這種方法更像嬰兒的學(xué)習(xí)過程：通過不斷的互動(dòng)和反饋,，逐漸學(xué)會(huì)新知識(shí)。例如,，教嬰兒識(shí)別顏色時(shí),，通過不斷提問和反饋，嬰兒最終能理解并記住顏色的概念,。

強(qiáng)化學(xué)習(xí)一般用于游戲策略等復(fù)雜任務(wù),，因?yàn)樗鼪]有標(biāo)準(zhǔn)答案，有時(shí)會(huì)產(chǎn)生非常有創(chuàng)意的解決方案,。2016年AlphaGo與李世石對戰(zhàn)時(shí),，就下出了連職業(yè)棋手都看不懂的一手棋，這體現(xiàn)了強(qiáng)化學(xué)習(xí)的創(chuàng)造力,。

這對我們有什么啟發(fā)呢,？我們在不熟悉的領(lǐng)域其實(shí)也像一張白紙,，可以從零開始學(xué)習(xí)。比如我在麥肯錫做咨詢時(shí),，發(fā)現(xiàn)許多金融行業(yè)的常見做法在其他行業(yè)卻是創(chuàng)新,。因此，跨領(lǐng)域的學(xué)習(xí)和思考可以幫助我們在不同領(lǐng)域找到新的解決方案,。

此外,，每天花些時(shí)間進(jìn)行思考訓(xùn)練也是一個(gè)好方法?？梢赃x擇一個(gè)從未系統(tǒng)性思考過的問題,，不限于工作相關(guān)，可以是跨行業(yè)的或生活方面的,。這樣的訓(xùn)練有助于開拓思路,，激發(fā)創(chuàng)造力。

關(guān)于DeepSeek的論文還有更多有趣的細(xì)節(jié),。盡管R1-Zero已經(jīng)具備了出色的推理能力,，但它存在中英文混雜、可讀性差等問題,。為了解決這些問題,，DeepSeek重新訓(xùn)練了模型，并提供了一些冷啟動(dòng)數(shù)據(jù),，從而推出了正式版本的R1,。這個(gè)過程類似于雙語教育下的孩子，通過觀察大人對話,，逐漸學(xué)會(huì)了區(qū)分使用不同語言,。

這些經(jīng)歷讓我思考人類是否也是某種高維生命訓(xùn)練出來的AI。最后,，推薦一個(gè)有趣的項(xiàng)目Spore,，該項(xiàng)目中的AI智能體可以自己發(fā)推、發(fā)幣,，為自己賺取電費(fèi),，并且能夠分裂后代，遺傳特征,，產(chǎn)生變異，與其他AI交互,，盡可能生存和繁衍,。

(責(zé)任編輯：張小花 TT1000)

關(guān)閉

“木頭姐”談DeepSeek啟示 創(chuàng)新訓(xùn)練方法啟發(fā)思考

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

“木頭姐”談DeepSeek啟示創(chuàng)新訓(xùn)練方法啟發(fā)思考