AGIEval English Leaderboard

Gemini 3.1 Pro Preview

$2.000

$12.000

94.0

Gemini 3 Pro Preview

$2.000

$12.000

93.2

Gemini 3 Pro Preview

$2.000

$12.000

93.2

Qwen3.5 397B A17B

$0.390

$0.900

91.4

Qwen3.5 397B A17B

$0.390

$0.900

91.4

$1.250

$10.000

91.4

$1.250

$10.000

91.4

$1.250

$10.000

91.4

$1.250

$10.000

91.4

Gemini 2.5 Pro

$1.000

$10.000

91.1

$2.000

$8.000

90.9

Qwen3.5-27B

$0.195

$0.900

90.6

Qwen3.5-27B

$0.195

$0.900

90.6

Qwen3.5-122B-A10B

$0.260

$0.900

90.3

Qwen3.5-122B-A10B

$0.260

$0.900

90.3

GLM 4.7 Thinking

$0.400

$1.540

90.1

GLM 4.7

$0.400

$1.540

90.1

Claude Sonnet 4.6

$3.000

$15.000

89.5

Claude Sonnet 4.6

$3.000

$15.000

89.5

Claude Sonnet 4.6

$3.000

$15.000

89.5

Qwen

Qwen3.5-Flash

$0.065

$0.260

89.5

Qwen3.5-35B-A3B

$0.140

$0.900

89.5

Qwen3.5-35B-A3B

$0.140

$0.900

89.5

Grok 4

$3.000

$15.000

89.3

GLM 5 Thinking

$0.600

$2.080

89.1

GLM 5

$0.600

$2.080

89.1

R1 0528

$0.500

$2.150

89.0

DeepSeek V3.2 Exp Thinking

$0.270

$0.410

89.0

Grok 4 Fast Thinking

$0.200

$0.500

88.9

Grok 4 Fast

$0.200

$0.500

88.6

GLM 4.6 Thinking

$0.430

$1.740

88.6

GLM 4.6

$0.430

$1.740

88.6

QwQ 32B

$0.900

88.0

QwQ 32B

$0.900

88.0

o4 Mini High

$1.100

$4.400

87.8

$0.550

$2.000

87.6

Claude 3.7 Sonnet Thinking

$3.000

$15.000

87.5

GPT-5 Mini

$0.250

$2.000

87.1

GPT-5 Mini

$0.250

$2.000

87.1

Prime Intellect

INTELLECT-3

$0.200

$1.100

86.4

Claude Sonnet 4.5 Thinking

$3.000

$15.000

86.0

Claude Sonnet 4.5

$3.000

$15.000

85.7

DeepSeek V3.2 Exp

$0.270

$0.410

85.7

Grok 3 Mini

$0.250

$0.500

85.2

MiniMax M2

$0.255

$1.000

85.1

Tongyi DeepResearch 30B A3B

$0.090

$0.400

84.8

DeepSeek V3.1 Terminus Thinking

$0.270

$0.950

84.7

DeepSeek V3.1 Terminus

$0.270

$0.950

84.7

Gemini 3 Flash Preview Thinking

$0.500

$3.000

84.2

Gemini 3 Flash Preview

$0.500

$3.000

84.2

Claude Sonnet 4 Thinking

$3.000

$15.000

83.9

Claude Sonnet 4

$3.000

$15.000

83.9

Claude Opus 4.1 Thinking

$15.000

$75.000

83.4

Claude Opus 4.1

$15.000

$75.000

83.4

Qwen3 30B A3B Thinking

$0.080

$0.280

83.1

Qwen3 30B A3B

$0.080

$0.280

83.1

Kimi

Kimi K2 0711

$0.550

$2.200

83.0

Kimi

Kimi K2 0711

$0.550

$2.200

83.0

GPT-OSS-120b

$0.039

$0.100

82.7

GPT-OSS-120b

$0.039

$0.100

82.7

Claude Opus 4 Thinking

$15.000

$75.000

82.0

Claude Opus 4

$15.000

$75.000

82.0

o3 Mini

$0.550

$2.200

81.9

MiniMax M1

$0.400

$2.200

81.5

MiniMax M1

$0.400

$2.200

81.5

GLM 4.5 Thinking

$0.600

$2.200

80.9

Qwen3 VL 235B A22B Instruct

$0.200

$0.880

80.7

Kimi

Kimi K2 0905 (exacto)

$0.600

$2.500

80.7

DeepSeek V3.1

$0.210

$0.790

79.8

DeepSeek V3.1 Thinking

$0.210

$0.790

79.8

GPT-OSS-20b

$0.029

$0.140

79.6

GPT-OSS-20b

$0.029

$0.140

79.6

Qwen3 Max

$0.780

$3.900

79.1

Qwen3 Max

$0.780

$3.900

79.1

MiniMax M2.5

$0.150

$1.150

78.3

Qwen

Qwen3.5 Plus

$0.260

$1.560

77.8

Claude Haiku 4.5 Thinking

$1.000

$5.000

76.9

Claude Haiku 4.5

$1.000

$5.000

76.9

Llama 4 Maverick

$0.150

$0.600

76.7

Qwen3 235B A22B Instruct 2507

$0.071

$0.100

76.7

Deepseek

DeepSeek V3

$0.014

$0.028

76.2

Gemini 2.5 Flash Thinking

$0.300

$2.500

74.2

Gemini 2.5 Flash Thinking

$0.300

$2.500

74.2

Gemini 2.5 Flash

$0.300

$2.500

74.2

Gemini 2.5 Flash

$0.300

$2.500

74.2

Baidu

ERNIE 4.5 300B A47B

$0.900

74.1

Claude 3.7 Sonnet

$3.000

$15.000

74.0

Mistral AI

Mistral Large 3 2512

$0.500

$1.500

74.0

Gemini 2.0 Flash

$0.100

$0.400

73.4

Mistral Medium 3.1

$0.400

$2.000

71.9

GPT-5.2

$1.750

$14.000

71.7

GPT-5.2

$1.750

$14.000

71.7

Xai

Grok 3 Beta

$3.000

$15.000

71.3

Grok 3

$3.000

$15.000

71.2

Grok 3

$3.000

$15.000

71.2

Mistral Medium 3

$0.400

$2.000

70.3

Cohere

Command A

$2.500

$10.000

70.1

GPT-4.1

$2.000

$8.000

70.0

GPT-5.1

$1.250

$10.000

69.4

GPT-5.1

$1.250

$10.000

69.4

Microsoft

Phi 4

$0.065

$0.140

68.2

Grok 4.1 Fast Thinking

$0.000

67.4

Grok 4.1 Fast

$0.000

67.0

GLM 4.5 Air

$0.125

$0.850

66.4

Claude 3.5 Haiku

$0.800

$4.000

66.2

Amazon

Nova Lite 1.0

$0.060

$0.240

65.8

Amazon

Nova Pro 1.0

$0.800

$3.200

65.5

Gemma 3 27B

$0.080

$0.160

65.1

Pixtral Large 2411

$2.000

$6.000

64.7

Mistral Large 2411

$2.000

$6.000

64.5

Llama 3.1 405B Instruct

$0.900

63.7

Nous Research

Hermes 3 70B Instruct

$0.300

62.5

Mistral Small 3.2 24B

$0.075

$0.200

62.3

Inflection 3 Productivity

Inflection

$2.500

$10.000

60.4

Devstral Small 1.1

$0.070

$0.280

60.0

Gemini 2.5 Flash Lite Thinking

$0.100

$0.400

58.0

Gemini 2.5 Flash Lite

$0.100

$0.400

58.0

Amazon

Nova Micro 1.0

$0.035

$0.140

55.6

Gemma 3n 4B

$0.060

$0.120

53.1

Llama 4 Scout

$0.080

$0.300

27.4

Llama 3.2 3B Instruct

$0.030

$0.050

26.5