Anthropic 公司在北京時(shí)間5月23日0點(diǎn)30分舉辦的活動(dòng)中,,推出了Claude Opus 4和Claude Sonnet 4新一代語(yǔ)言模型,在結(jié)構(gòu)化推理,、軟件工程和自主代理行為等領(lǐng)域?qū)崿F(xiàn)了重大進(jìn)步,。
Claude Opus 4被定位為Anthropic迄今為止最強(qiáng)大的模型,專為處理復(fù)雜的推理流程和軟件開發(fā)場(chǎng)景設(shè)計(jì),。測(cè)試數(shù)據(jù)顯示,,該模型在SWE-bench基準(zhǔn)測(cè)試中準(zhǔn)確率達(dá)到72.5%,在TerminalBench測(cè)試中準(zhǔn)確率為43.2%,。Opus 4在軟件環(huán)境中展現(xiàn)出強(qiáng)大的自主行為,,得益于改進(jìn)的內(nèi)存管理、更廣泛的上下文保留以及更強(qiáng)大的內(nèi)部規(guī)劃?rùn)C(jī)制,。據(jù)Rakuten測(cè)試數(shù)據(jù),,它可以連續(xù)進(jìn)行近7小時(shí)的代碼生成和任務(wù)執(zhí)行,刷新了AI世界紀(jì)錄,,遠(yuǎn)超前代Claude 3 Opus(不到1小時(shí)),。
Anthropic聲稱其AI模型不是為了消除工作崗位,而是一種將日常工作自動(dòng)化的工具,。不過(guò)有媒體認(rèn)為,,Claude 4系列問(wèn)世后,將改變AI的使用方式,,使其從完成單一任務(wù)的輔助工具轉(zhuǎn)變?yōu)榫邆涓鼜?qiáng),、更廣泛功能的“AI同事”,,可以自動(dòng)工作幾乎一個(gè)完整的工作班次,。
Claude Sonnet 4取代了前代Claude 3.5 Sonnet,以更穩(wěn)定的架構(gòu)提升速度與質(zhì)量,,同時(shí)未顯著增加計(jì)算成本,。該模型針對(duì)中規(guī)模部署優(yōu)化,適合需要在成本與性能間權(quán)衡的場(chǎng)景,。盡管推理能力不及Opus 4,,但Sonnet 4繼承了許多架構(gòu)升級(jí),支持多文件代碼導(dǎo)航、中間工具使用和結(jié)構(gòu)化文本處理,,延遲表現(xiàn)更佳,。它成為Claude.ai免費(fèi)用戶的默認(rèn)模型,并通過(guò)API提供服務(wù),,適用于輕量開發(fā)工具,、用戶助手和分析流程。
兩款模型均具備混合推理能力,,提供“快速模式”用于低延遲的簡(jiǎn)短對(duì)話任務(wù),,以及“擴(kuò)展思考模式”用于需要深度推理和多輪代理行為的復(fù)雜任務(wù)。這種雙模式策略讓用戶能根據(jù)任務(wù)復(fù)雜度靈活分配計(jì)算資源,。此外,,Claude Opus 4和Sonnet 4可通過(guò)多個(gè)云平臺(tái)訪問(wèn),包括Anthropic的Claude API,、Amazon Bedrock和Google Cloud Vertex AI等,,支持從自主代理到代碼分析等多種企業(yè)應(yīng)用場(chǎng)景。