AI Agent Benchmark Results Index

97.1%

SELF

Magnitude NEW

Magnitude

93.9%

SELF

YES

AIME Browser-Use NEW

Aime

92.34%

SELF

Surfer-H + Holo1 NEW

H Company

92.2%

3RD

Browserable NEW

Browserable

90.4%

SELF

YES

Browser Use

89.1%

SELF

YES

Operator

OpenAI

87.0%

SELF

Skyvern 2.0

Skyvern

85.85%

SELF

YES

Project Mariner

Google

83.5%

SELF

Agent-E

Emergence AI

73.1%

SELF

Proxy Lite

Convergence AI

72.4%

SELF

WebSight

Academic

68.0%

3RD

YES

Runner H 0.1

H Company

67.0%

SELF

WebVoyager

Academic

59.1%

3RD

YES

WILBUR

Academic

53.0%

3RD

DeepSeek v3.2 NEW

DeepSeek

74.3%

3RD

YES

OpAgent

CodeFuse AI

71.6%

3RD

YES

ColorBrowserAgent

ColorBrowser

71.2%

3RD

YES

Claude Code+GBOX

GBOX AI

68.0%

3RD

DeepSky Agent

DeepSky

66.9%

SELF

Narada AI

Narada

64.2%

SELF

IBM CUGA

IBM

61.7%

3RD

OpenAI Operator

OpenAI

58.1%

SELF

Jace.AI

Jace AI

57.1%

SELF

ORCHESTRA

UNC x Ventus

52.1%

3RD

WebOperator+GPT-4o

WebOperator

54.6%

3RD

YES

ScribeAgent+GPT-4o

Scribe

53.0%

3RD

AgentSymbiotic

Academic

52.1%

3RD

YES

Learn-by-Interact

Academic

48.0%

3RD

YES

AgentOccam-Judge

Academic

45.7%

3RD

YES

WebPilot

37.2%

3RD

GUI-API Hybrid

Academic

35.8%

3RD

YES

AWM

Academic

35.5%

3RD

YES

Magentic-One

Microsoft

30.5%

3RD

YES

GPT-4 baseline

OpenAI

14.9%

3RD

SeeAct + GPT-5 NEW

Academic

Online-Mind2Web

42.33%

3RD

YES

Browser-Use

Browser Use

Online-Mind2Web

40.00%

3RD

YES

SeeAct + o3

Academic

Online-Mind2Web

39.00%

3RD

YES

Kimi K2 Thinking NEW

Moonshot AI

60.2%

SELF

YES

Deep Research

OpenAI

51.5%

SELF

WebSailor-72B

Academic

12.0%

3RD

YES

GPT-4o + browsing

OpenAI

1.9%

SELF

openJiuwen-deepagent NEW

Alibaba Cloud

GAIA

92.36%

3RD

YES

Lemon Agent NEW

openJiuwen

GAIA

91.69%

3RD

YES

JoinAI_V2.2 NEW

Lenovo CTO Org

GAIA

91.36%

3RD

Nemotron-ToolOrchestra NEW

NVIDIA

GAIA

90.37%

3RD

YES

SU Zero (Shuqian Pro) NEW

Shuqian Tech

GAIA

90.03%

3RD

HALO V1217-1 NEW

Microsoft AI Asia

GAIA

89.37%

3RD

MiroThinker (Shawn) NEW

MiroMindAI

GAIA

89.37%

3RD

YES

h2oGPTe Agent NEW

H2O.ai

GAIA

75.0%

SELF

Manus

Manus AI

GAIA

~75.0%

3RD

Deep Research

OpenAI

GAIA

67.36%

SELF

MS Research (o1)

Microsoft

GAIA

38.0%

3RD

HF Agents

Hugging Face

GAIA

33.0%

3RD

YES

GPT-4 + tools

OpenAI

GAIA

15.0%

3RD

GPT-5.4 NEW

OpenAI

75.0%

SELF

Claude Opus 4.6 NEW

Anthropic

72.7%

SELF

UiPath Screen Agent NEW

UiPath

72.1%

SELF

Simular Agent S2

Simular

49.2%

3RD

Agent S3 NEW

Simular AI

69.9%

3RD

YES

AskUI VisionAgent

AskUI

66.2%

SELF

CoACT-1

USC / Salesforce

60.76%

3RD

YES

Agent S2.5 w/ o3

Simular AI

56.0%

3RD

YES

GTA1 w/ o3

Salesforce

53.1%

3RD

OpenAI CUA (o3)

OpenAI

42.9%

3RD

UI-TARS-1.5

ByteDance

42.5%

3RD

YES

Agent S2 w/ Gemini

Simular AI

41.4%

3RD

YES

OpenAI CUA (4o)

OpenAI

31.4%

3RD

Claude 3.7 (CU)

Anthropic

28.0%

3RD

Qwen2.5-VL-72B

Alibaba

25.1%

3RD

YES

UI-TARS-7B

ByteDance

24.6%

3RD

YES

GPT-4o (SoM)

OpenAI

17.8%

3RD

Agent S3 NEW

Simular AI

AndroidWorld

66.8%

3RD

YES

AskUI AndroidVA

AskUI

AndroidWorld

64.8%

SELF

M3A (Gemini 1.5)

Google DeepMind

AndroidWorld

30.0%

3RD

Sonar Foundation NEW

Sonar

79.2%

3RD

Claude Opus 4.5 NEW

Anthropic

79.2%

3RD

Gemini 3 Pro NEW

Google

77.4%

3RD

Claude Opus 4.6 NEW

Anthropic

79.2%

3RD

GPT-5.2 Codex NEW

OpenAI

~78%

3RD

OpenAI o3

OpenAI

~72%

SELF

Claude 3.7 Sonnet

Anthropic

70.3%

SELF

Devin 2.0

Cognition

~55%

SELF

Gru

Mutable AI

~57%

SELF

Devstral (2512)

Mistral

~56%

SELF

YES

Qwen3-Coder-480B

Alibaba

~65%

SELF

YES

Gemini 2.5 Pro

Google

~63%

SELF

GPT-4.1

OpenAI

~55%

SELF

Kimi K2 Thinking

Moonshot AI

~65%

SELF

YES

mini-SWE-agent

Academic

65.0%

3RD

YES

Claude Opus 4.1 NEW

Anthropic

23.1%

3RD

OpenAI GPT-5 NEW

OpenAI

23.3%

3RD

Claude Sonnet 4.5 NEW

Anthropic

45.8%

3RD

GPT-5.3-Codex (CLI) NEW

OpenAI

57.0%

SELF

Auggie NEW

Augment Code

51.8%

SELF

Cursor NEW

Anysphere

50.2%

SELF

Claude Code NEW

Anthropic