馬斯克宣布Grok4發(fā)布 超越人類推理能力!xAI終于發(fā)布了下一代大模型Grok 4,,其能力超乎想象,。北京時(shí)間今天中午12點(diǎn)左右,,馬斯克在直播中表示這是世界上最好的AI,,并展示了其強(qiáng)大功能,。
Grok 4無需事先查看題目就能在SAT考試中獲得滿分,,GRE任何學(xué)科也能接近滿分,,超過了所有研究生的水平,。馬斯克認(rèn)為Grok 4可以實(shí)現(xiàn)科學(xué)新發(fā)現(xiàn),。由于計(jì)算能力和強(qiáng)化學(xué)習(xí)的提升,Grok 4的推理能力比前代提升了10倍,。從Grok 2到Grok 4的技術(shù)范式不斷升級,,包括下一個token預(yù)測、預(yù)訓(xùn)練計(jì)算,、預(yù)訓(xùn)練+RL和RL計(jì)算,。
Grok 4還增強(qiáng)了調(diào)用工具的能力,,在各類高難度Benchmark上表現(xiàn)遠(yuǎn)超SOTA。在HLE(人類最后的考試)中,,Grok 4使用工具后的成績?yōu)?8.6%,,而Grok 4 Heavy的成績達(dá)到了44.4%。如果讓大模型花費(fèi)更多時(shí)間思考并適當(dāng)使用外部工具,,HLE分?jǐn)?shù)能進(jìn)一步提升到50.7%,。此外,在GPQA,、AIME25,、LCB、HMMT25和USAMO25等基準(zhǔn)測試中,,Grok 4 Heavy均取得了最新SOTA,。
Grok 4已經(jīng)實(shí)現(xiàn)了博士后水平,在所有學(xué)科都能表現(xiàn)出色,。馬斯克多次強(qiáng)調(diào),,Grok將在今年內(nèi)實(shí)現(xiàn)新的科學(xué)技術(shù)發(fā)現(xiàn)。根據(jù)Artificial Analysis的評估,,Grok 4總成績達(dá)到了73分,,領(lǐng)先于o3、Gemini 2.5 Pro,、Claude 4 Opus和DeepSeek R1 0528,。