國产一二三内射在线看片,国产精品夜色一区二区三区,国产精品手机免费,国产综合久久亚洲综合,国精产品一区一区三区有限在线

EN

新聞資訊

News information

zoty中歐體育官方網站-ChatGPT Agent多項測試跑分破紀錄 HLE測試獲41.6%

2025-08-29   ? zoty中欧体育官方网站 

  【zoty中歐體育官方網站】7月18日,Open AI首席執(zhí)行官Sam Altman和四位研究員在直播中正式發(fā)布了ChatGPT Agent——一款通用型AI智能體。CNMO獲悉,在HLE測試中,ChatGPT agent拿下了41.6%高分,并在數學FrontierMath基準上刷新了SOTA,碾壓o4-mini和o3模型。

Sam Altman(最右)及他的團隊Sam Altman(最右)及他的團隊

  ChatGPT Agent融合了Operator、Deep Research和ChatGPT三大模塊優(yōu)勢,能夠自主完成網頁瀏覽、數據分析、PPT制作等復雜任務。

ChatGPT Agent在HLE測試中獲得41.6%的高分,采用并行八路推理并選取置信度最高答案后可提升到44.4%。在數學基準測試FrontierMath中,以27.4%的準確率刷新了紀錄。

ChatGPT Agent多項測試跑分破紀錄 HLE測試獲41.6%ChatGPT Agent多項測試跑分破紀錄 HLE測試獲41.6%

  在Excel編輯能力的SpreadsheetBench測試中,ChatGPT agent的表現同樣遠超現有模型。當獲得直接編輯權限時,以45.5%的得分顯著超越Excel Copilot的20.0%。此外,它還在BrowseComp、WebArena等瀏覽評測里均刷新了SOTA。

ChatGPT Agent多項測試跑分破紀錄 HLE測試獲41.6%

  據悉,該產品已面向Pro、Plus和Team用戶開放。Pro用戶可以馬上使用,Plus與Team用戶將在數日內陸續(xù)開通,Enterprise與Education版本將于數周后接入。

-zoty中歐體育官方網站