還對(duì)真正增進(jìn)對(duì)當(dāng)前大模型功能和局限性理解的工作感興趣,無(wú)論在經(jīng)驗(yàn)上還是理論上,。
陳丹琦團(tuán)隊(duì)的大模型工作,,量子位也有持續(xù)關(guān)注。
比如,,提出的大模型降本大法——數(shù)據(jù)選擇算法LESS,,只篩選出與任務(wù)最相關(guān)5%數(shù)據(jù)來(lái)進(jìn)行指令微調(diào),效果比用整個(gè)數(shù)據(jù)集還要好,。
而指令微調(diào)正是讓基礎(chǔ)模型成為類ChatGPT助手模型的關(guān)鍵一步,。
提出爆火的“羊駝剪毛”大法——LLM-Shearing大模型剪枝法,只用3%的計(jì)算量,、5%的成本取得SOTA,,統(tǒng)治了1B-3B規(guī)模的開(kāi)源大模型。
除了這兩位,,業(yè)界,、學(xué)術(shù)界姚班校友在搞大模型的還有很多。
之前火爆全網(wǎng)的大模型原生應(yīng)用《完蛋!我被大模型包圍了》及其續(xù)作《我把大模型玩壞了》,,就是由姚班學(xué)霸帶隊(duì)開(kāi)發(fā)的,。
游戲作者
范浩強(qiáng)
,曠視6號(hào)員工,。當(dāng)年以IOI金牌,、保送清華姚班、高二實(shí)習(xí)等傳奇事跡被譽(yù)為天才少年,。如今他已是曠視科技研究總經(jīng)理,,谷歌學(xué)術(shù)h-index 32的行業(yè)大佬。
馬斯克xAI首個(gè)研究成果——Tensor Programs VI,,共同一作中也有姚班校友的身影,。
Tensor Programs VI是xAI創(chuàng)始成員、丘成桐弟子楊格
(Greg Yang)
之前Tensor Programs系列工作的延續(xù),,論文重點(diǎn)探討了“如何訓(xùn)練無(wú)限深度網(wǎng)絡(luò)”,。
據(jù)說(shuō)Tensor Programs相關(guān)成果,在GPT-4中已有應(yīng)用,。為解讀論文,,楊格本人當(dāng)時(shí)還專門在X上進(jìn)行了一場(chǎng)直播分享。
共同一作
Dingli Yu
,,本科畢業(yè)于清華姚班,,目前Dingli Yu也快要在普林斯頓計(jì)算機(jī)科學(xué)系博士畢業(yè)了。
江蘇省中醫(yī)院消化系腫瘤外科主任姚學(xué)權(quán),,在經(jīng)歷6年與癌癥的斗爭(zhēng)后,于2024年7月12日下午2時(shí)28分在南京離世,,終年59歲
2024-07-16 20:00:5859歲腫瘤專家姚學(xué)權(quán)病逝