大家好,我是很帥的狐貍,。最近幾天DeepSeek的消息引起了廣泛關(guān)注,。這家公司以極低成本訓(xùn)練出一個名為R1的模型,,其性能甚至可以媲美OpenAI的頂級推理模型o1,。這一消息導(dǎo)致英偉達股價下跌,,市場開始質(zhì)疑訓(xùn)練AI是否真的需要大量資金投入,。
讓我感到最有趣的是DeepSeek的訓(xùn)練方法,。R1不同于普通的大語言模型,,它具有一定的推理能力,,可以通過增加“思維鏈”來提高答案質(zhì)量,特別是在理工科題目上,。傳統(tǒng)上,,要讓大語言模型具備這種能力,通常是在基礎(chǔ)模型上通過監(jiān)督微調(diào)(SFT)來實現(xiàn),,類似于學(xué)生通過大量練習(xí)和參考答案學(xué)習(xí)解題方法,。
然而,,DeepSeek在訓(xùn)練R1-Zero時采用了強化學(xué)習(xí)(RL)的方法。這種方法更像嬰兒的學(xué)習(xí)過程:通過不斷的互動和反饋,,逐漸學(xué)會新知識,。例如,教嬰兒識別顏色時,,通過不斷提問和反饋,,嬰兒最終能理解并記住顏色的概念。
強化學(xué)習(xí)一般用于游戲策略等復(fù)雜任務(wù),,因為它沒有標(biāo)準(zhǔn)答案,,有時會產(chǎn)生非常有創(chuàng)意的解決方案。2016年AlphaGo與李世石對戰(zhàn)時,,就下出了連職業(yè)棋手都看不懂的一手棋,,這體現(xiàn)了強化學(xué)習(xí)的創(chuàng)造力。
這對我們有什么啟發(fā)呢,?我們在不熟悉的領(lǐng)域其實也像一張白紙,,可以從零開始學(xué)習(xí)。比如我在麥肯錫做咨詢時,,發(fā)現(xiàn)許多金融行業(yè)的常見做法在其他行業(yè)卻是創(chuàng)新,。因此,跨領(lǐng)域的學(xué)習(xí)和思考可以幫助我們在不同領(lǐng)域找到新的解決方案,。
此外,,每天花些時間進行思考訓(xùn)練也是一個好方法??梢赃x擇一個從未系統(tǒng)性思考過的問題,,不限于工作相關(guān),可以是跨行業(yè)的或生活方面的,。這樣的訓(xùn)練有助于開拓思路,,激發(fā)創(chuàng)造力。
關(guān)于DeepSeek的論文還有更多有趣的細(xì)節(jié),。盡管R1-Zero已經(jīng)具備了出色的推理能力,,但它存在中英文混雜、可讀性差等問題,。為了解決這些問題,,DeepSeek重新訓(xùn)練了模型,并提供了一些冷啟動數(shù)據(jù),,從而推出了正式版本的R1,。這個過程類似于雙語教育下的孩子,通過觀察大人對話,,逐漸學(xué)會了區(qū)分使用不同語言,。
這些經(jīng)歷讓我思考人類是否也是某種高維生命訓(xùn)練出來的AI,。最后,推薦一個有趣的項目Spore,,該項目中的AI智能體可以自己發(fā)推,、發(fā)幣,為自己賺取電費,,并且能夠分裂后代,,遺傳特征,產(chǎn)生變異,,與其他AI交互,,盡可能生存和繁衍。
最近,社交平臺上涌現(xiàn)出大量關(guān)于AI算命的討論,。以DeepSeek為代表的AI算命在年輕人中掀起了一股熱潮,,成為他們在應(yīng)對婚戀、職場等壓力時的“救命稻草”
2025-02-16 19:52:04DeepSeek爆火的啟示2024年1月20日,,中國量化基金公司幻方發(fā)布的人工智能大模型DeepSeek-R1在全球科技界引起轟動
2025-02-18 05:39:09DeepSeek爆火的啟示