翟季冬分享了DeepSeek在系統(tǒng)軟件方面的工作,拆解并行訓(xùn)練策略,。他指出DeepSeek V3的成本相對(duì)較低,,采用了MoE架構(gòu)和多種優(yōu)化策略,,如負(fù)載均衡,、通信優(yōu)化、內(nèi)存優(yōu)化和計(jì)算優(yōu)化,,從而大幅提升了訓(xùn)練效率,。
戴國(guó)浩討論了DeepSeek在軟硬件上的優(yōu)化,特別是繞過(guò)CUDA層的問(wèn)題,。他解釋了PTX(并行線程執(zhí)行)指令的重要性,,并指出通過(guò)定制的PTX優(yōu)化,可以使系統(tǒng)和模型更好地釋放底層硬件的性能,。他還提到,,協(xié)同優(yōu)化可以通過(guò)軟件和硬件的結(jié)合進(jìn)一步提升整體系統(tǒng)的優(yōu)化空間。
在Q&A環(huán)節(jié)中,,四位教授從各自的專業(yè)角度分享了DeepSeek引起的一些效應(yīng)和技術(shù)亮點(diǎn),。邱錫鵬認(rèn)為DeepSeek的成功在于效果好且開(kāi)源;劉知遠(yuǎn)強(qiáng)調(diào)了低成本和開(kāi)源的重要性,;翟季冬則關(guān)注架構(gòu)創(chuàng)新,,尤其是MoE;戴國(guó)浩從學(xué)術(shù)和產(chǎn)業(yè)兩個(gè)角度表達(dá)了對(duì)DeepSeek的贊賞,。
對(duì)于MoE架構(gòu)是否是最優(yōu)解的問(wèn)題,,幾位教授一致認(rèn)為沒(méi)有絕對(duì)最優(yōu)的方法,但模塊化和稀疏激活將是未來(lái)的重要方向,。關(guān)于長(zhǎng)思維鏈設(shè)計(jì)對(duì)硬件的需求,,戴國(guó)浩提出需要更高的帶寬和存儲(chǔ)能力,以及新的硬件架構(gòu)來(lái)支持高效的推理過(guò)程,。
最后,,關(guān)于PTX方法的通用性,翟季冬和戴國(guó)浩都認(rèn)為PTX是英偉達(dá)特有的指令,,如果換用其他芯片,,則需要使用相應(yīng)的底層接口進(jìn)行調(diào)整。