MATH-500 Leaderboard

$1.250

$10.000

99.4

$2.000

$8.000

99.2

xAI

Grok 3 Mini

$0.250

$0.500

99.2

$1.250

$10.000

99.1

Claude Sonnet 4 Thinking

$3.000

$15.000

99.1

xAI

Grok 4

$3.000

$15.000

99.0

o4 Mini

$0.550

$2.200

98.9

$1.250

$10.000

98.7

Gemini 2.5 Pro Preview 05-06

$1.250

$10.000

98.6

o3 Mini High

$1.100

$4.400

98.5

Qwen3 235B A22B Thinking 2507 Thinking

$0.100

98.4

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

98.3

R1 0528

$0.500

$2.150

98.3

Claude Opus 4 Thinking

$15.000

$75.000

98.2

Gemini 2.5 Flash Thinking

$0.300

$2.500

98.1

Gemini 2.5 Flash Thinking

$0.300

$2.500

98.1

Gemini 2.5 Pro Preview 06-05

$1.250

$10.000

98.0

MiniMax

MiniMax M1

$0.400

$2.200

98.0

Qwen3 235B A22B Instruct 2507

$0.071

$0.100

98.0

Z AI

GLM 4.5 Thinking

$0.600

$2.200

97.9

Qwen3 30B A3B Thinking 2507 Thinking

$0.080

$0.400

97.6

Qwen3 30B A3B Instruct 2507

$0.043

$0.172

97.5

o3 Mini

$0.550

$2.200

97.3

MiniMax

MiniMax M1

$0.400

$2.200

97.2

Kimi

Kimi K2 0711

$0.550

$2.200

97.1

Kimi

Kimi K2 0711

$0.550

$2.200

97.1

$15.000

$60.000

97.0

Gemini 2.5 Flash Lite Thinking

$0.100

$0.400

96.9

Gemini 2.5 Pro

$1.000

$10.000

96.7

$0.550

$2.000

96.6

Z AI

GLM 4.5 Air

$0.125

$0.850

96.5

Qwen3 14B Thinking

$0.080

$0.200

96.1

Qwen3 32B Thinking

$0.080

$0.280

96.1

Qwen3 30B A3B Thinking

$0.080

$0.280

95.9

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

95.9

QwQ 32B

$0.900

95.7

Perplexity

Sonar Reasoning Pro

$2.000

$8.000

95.7

Claude 3.7 Sonnet Thinking

$3.000

$15.000

94.7

DeepSeek V3 0324

$0.200

$0.770

94.2

Qwen3 Coder 480B A35B (exacto)

$0.220

$0.900

94.2

R1 Distill Qwen 32B

$0.290

94.1

Claude Opus 4

$15.000

$75.000

94.1

R1 Distill Llama 70B

$0.700

$0.800

93.5

Claude Sonnet 4

$3.000

$15.000

93.4

Qwen3 4B Thinking

$0.200

93.3

Gemini 2.5 Flash

$0.300

$2.500

93.2

Baidu

ERNIE 4.5 300B A47B

$0.900

93.1

Gemini 2.0 Flash

$0.100

$0.400

93.0

Qwen3 235B A22B Thinking

$0.455

$0.900

93.0

Gemini 2.5 Flash

$0.300

$2.500

92.6

Gemini 2.5 Flash Lite

$0.100

$0.400

92.6

GPT-4.1 Mini

$0.400

$1.600

92.5

GPT-4.1

$2.000

$8.000

91.3

QwQ 32B

$0.900

91.0

Mistral Medium 3

$0.400

$2.000

90.7

Qwen3 8B Thinking

$0.050

$0.200

90.4

Qwen3 235B A22B

$0.455

$0.900

90.2

Qwen3 Coder 30B A3B Instruct

$0.070

$0.270

89.3

Llama 4 Maverick

$0.150

$0.600

88.9

DeepSeek V3 0324

$0.200

$0.770

88.7

Gemma 3 27B

$0.080

$0.160

88.3

Mistral Small 3.2 24B

$0.075

$0.200

88.3

Gemini 2.0 Flash Lite

$0.075

$0.300

87.3

Gemini 2.0 Flash Lite

$0.075

$0.300

87.3

Qwen3 14B

$0.080

$0.200

87.1

xAI

Grok 3

$3.000

$15.000

87.0

Qwen3 32B

$0.080

$0.280

86.9

Qwen3 30B A3B

$0.080

$0.280

86.3

$1.250

$10.000

86.1

Qwen2.5 72B Instruct

$0.360

$0.400

85.8

Gemma 3 12B

$0.040

$0.130

85.3

Claude 3.7 Sonnet

$3.000

$15.000

85.0

GPT-4.1 Nano

$0.100

$0.400

84.8

Llama 4 Scout

$0.080

$0.300

84.4

Qwen3 4B Thinking

$0.200

84.3

Qwen3 4B

$0.200

84.3

Qwen3 4B

$0.200

84.3

Nova Premier 1.0

$2.500

$12.500

83.9

Qwen-Max

$1.040

$4.160

83.5

Qwen3 8B

$0.050

$0.200

82.8

Cohere

Command A

$2.500

$10.000

81.9

Perplexity

Sonar

$1.000

81.7

Microsoft

Phi 4

$0.065

$0.140

81.0

Qwen-Turbo

$0.033

$0.130

80.5

Qwen2.5 VL 32B Instruct

$0.900

80.5

GPT-4o-mini

$0.150

$0.600

78.9

Nova Pro 1.0

$0.800

$3.200

78.6

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

77.5

Llama 3.3 70B Instruct

$0.100

$0.320

77.3

Claude 3.5 Sonnet

$3.000

$15.000

77.1

Gemma 3n 4B

$0.060

$0.120

77.1

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

77.0

Qwen2.5 Coder 32B Instruct

$0.660

$0.800

76.7

Gemma 3 4B

$0.040

$0.080

76.6

Nova Lite 1.0

$0.060

$0.240

76.5

Perplexity

Sonar Pro

$3.000

$15.000

74.5

GPT-4 Turbo

$10.000

$30.000

73.7

Mistral Large 2411

$2.000

$6.000

73.6

Llama 3.1 Nemotron 70B Instruct

$0.900

73.3

Claude 3.5 Haiku

$0.800

$4.000

72.1

Mistral Small 24B Instruct 2501

$0.050

$0.080

71.5

Pixtral Large 2411

$2.000

$6.000

71.4

Mistral Large 2407

$2.000

$6.000

71.4

Devstral Medium

$0.400

$2.000

70.7

Mistral Small 3.1 24B

$0.100

$0.300

70.7

Llama 3.1 405B Instruct

$0.900

70.3

Nova Micro 1.0

$0.035

$0.140

70.3

Saba

$0.200

$0.600

67.7

Qwen2.5 Coder 7B Instruct

$0.200

66.0

Llama 3.1 70B Instruct

$0.340

$0.390

64.9

Devstral Small 1.1

$0.070

$0.280

63.5

AI21 Labs

Jamba Large 1.7

$2.000

$8.000

60.0

Mixtral 8x22B Instruct

$1.200

54.5

Nous Research

Hermes 3 70B Instruct

$0.300

53.8

Mistral Large

$0.500

$1.500

52.7

Llama 3.1 8B Instruct

$0.020

$0.050

51.9

Llama 3.2 11B Vision Instruct

$0.060

51.6

Llama 3 8B Instruct

$0.040

49.9

Llama 3.2 3B Instruct

$0.030

$0.050

48.9

Llama 3 70B Instruct

$0.510

$0.740

48.3

GPT-3.5 Turbo

$0.500

$1.000

44.1

Claude 3 Haiku

$0.250

$1.250

39.4

Mixtral 8x7B Instruct

$0.140

$0.420

29.9

Llama 3.2 1B Instruct

$0.020

14.0