1月,OpenAI宣布進(jìn)軍AI智能體領(lǐng)域,,中國(guó)公司智譜也推出了新版的GLM-PC 1.1,。從回答問(wèn)題到執(zhí)行任務(wù),AI智能體的發(fā)展進(jìn)入了新的階段,。
當(dāng)?shù)貢r(shí)間1月23日,,美國(guó)人工智能公司OpenAI推出了首款A(yù)I智能體Operator。這款智能體能夠模擬人類(lèi)操作瀏覽器完成購(gòu)物,、訂餐,、論文整理等任務(wù),,通過(guò)融合視覺(jué)識(shí)別與高級(jí)推理的CUA模型實(shí)現(xiàn)復(fù)雜步驟規(guī)劃,。工作流程中,,Operator會(huì)根據(jù)需求捕獲屏幕畫(huà)面,,通過(guò)GPT-4o的視覺(jué)能力理解界面內(nèi)容,,再依靠強(qiáng)化學(xué)習(xí)制定下一步計(jì)劃,,并使用虛擬鼠標(biāo)和鍵盤(pán)執(zhí)行點(diǎn)擊、滾動(dòng)或輸入等操作,,直至任務(wù)完成或需要用戶(hù)輸入,。目前,,Operator將以每月200美元的訂閱費(fèi)面向美國(guó)ChatGPT Pro用戶(hù)開(kāi)放測(cè)試,。
同一天,,中國(guó)公司智譜AI發(fā)布了去年12月公布的AI智能體GLM-PC 1.0的升級(jí)版——GLM-PC 1.1。本次更新優(yōu)化了多種任務(wù)流程,,不僅能夠自動(dòng)處理文件、發(fā)送定制化微信內(nèi)容,,還借鑒了人類(lèi)左右腦分工的概念,,以“左腦邏輯+右腦感知”的雙引擎架構(gòu)實(shí)現(xiàn)多模態(tài)交互,,甚至生成代碼與視頻內(nèi)容,,展示了超越文本生成的操作層突破。智譜公眾號(hào)文章演示了在淘寶中一鍵加購(gòu)辣條等產(chǎn)品,、截取小紅書(shū)春節(jié)檔圖片轉(zhuǎn)發(fā)微信群聊并詢(xún)問(wèn)觀看意愿,、以及給群聊成員每人單獨(dú)發(fā)送一段2025年新春祝福語(yǔ)和AI自動(dòng)生成的蛇年主題圖片。這些新春祝福甚至可以按照每個(gè)人的名字進(jìn)行定制發(fā)送,。
新版GLM-PC的背后是智譜自主研發(fā)的多模態(tài)模型CogAgent與代碼模型CodeGeex的深度融合,。該系統(tǒng)以代碼形式指揮工作流程和工具調(diào)用,強(qiáng)化了深度思考模式下的規(guī)劃,、推理,、反思能力,從而能夠穩(wěn)定高效地應(yīng)對(duì)復(fù)雜場(chǎng)景與任務(wù),。實(shí)際執(zhí)行時(shí),,GLM-PC能感知多層環(huán)境反饋,,協(xié)助反思,以有效自我糾正與優(yōu)化,。
目前,通用人工智能技術(shù)已進(jìn)入L3級(jí)(智能體)階段,,核心競(jìng)爭(zhēng)圍繞各家企業(yè)模型的自主操作能力展開(kāi),。除了OpenAI和智譜,,谷歌,、微軟,、Anthropic以及國(guó)內(nèi)多家AI公司也都相繼推出類(lèi)似產(chǎn)品。上海人工智能產(chǎn)業(yè)研究院院長(zhǎng)朱兆穎預(yù)測(cè),,AI智能體將是生成式AI的下一個(gè)前沿,,預(yù)計(jì)2025年市場(chǎng)規(guī)模將達(dá)100億美元以上,2025年將成為AI智能體大放異彩的應(yīng)用元年,。