Claude 3.7 Sonnet的設(shè)計理念與眾不同,,Anthropic認(rèn)為推理應(yīng)是前沿模型的整體能力,,而不是獨(dú)立的模型。用戶可以選擇在何時希望模型正?;卮?,何時希望它在回答前進(jìn)行更長時間的思考。通過API使用時,,用戶還可以控制思考的預(yù)算,,最多可達(dá)128K tokens,從而在速度和成本之間找到平衡,。
Claude 3.7 Sonnet在多個基準(zhǔn)測試中表現(xiàn)出色,,特別是在SWE-bench Verified和TAU-bench上刷新了SOTA記錄。盡管在某些方面略遜于Grok 3 Beta,,但在多模態(tài)能力和自主編程方面表現(xiàn)突出,,甚至在寶可夢游戲測試中超越了所有先前模型。
自2024年6月以來,,Sonnet系列一直是全球開發(fā)者的首選模型,。Claude Code主動與人協(xié)作,能夠搜索和閱讀代碼,、編輯文件,、編寫和運(yùn)行測試,、提交并將代碼推送至GitHub,同時確保用戶在每一步都能參與其中,。此外,,所有Claude套餐都支持GitHub集成,開發(fā)者可以直接連接代碼倉庫到Claude,。
Claude 3.7 Sonnet具備一項新特性——行為擴(kuò)展,,使其能夠迭代調(diào)用函數(shù)、響應(yīng)環(huán)境變化,,并持續(xù)操作直到完成開放式任務(wù),。這一進(jìn)步在OSWorld評估中得到了充分體現(xiàn),尤其是在玩口袋妖怪游戲中,,Claude 3.7 Sonnet成功挑戰(zhàn)并擊敗了三位道館館主,,獲得了相應(yīng)的徽章。
Claude 3.7 Sonnet還利用串行和并行測試時計算機(jī)制,,通過采樣多個獨(dú)立的思維過程并選擇最佳結(jié)果,,顯著提升了其性能。這些優(yōu)化策略已在多個AI模型的評估報告中得到驗(yàn)證,。
Claude 3.7 Sonnet和Claude Code標(biāo)志著向真正增強(qiáng)人類能力的人工智能系統(tǒng)邁出的重要一步,。它們具備深入推理、自主工作和有效協(xié)作的能力,,使我們更接近一個未來,,在那里人工智能豐富了人類所能實(shí)現(xiàn)的事情。目前,,Claude 3.7 Sonnet已經(jīng)在Claude.ai平臺上線,,Web、iOS和Android用戶皆可免費(fèi)體驗(yàn),。對于希望構(gòu)建自定義AI解決方案的開發(fā)者,,可以通過Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI進(jìn)行訪問,。