MMLU-Pro Leaderboard

Gemini 3 Pro Preview

$2.000

$12.000

89.8

Gemini 3 Pro Preview

$2.000

$12.000

89.5

Claude Opus 4.5 Thinking

$5.000

$25.000

89.5

Gemini 3 Flash Preview Thinking

$0.500

$3.000

89.0

Claude Opus 4.5

$5.000

$25.000

88.9

Gemini 3 Flash Preview

$0.500

$3.000

88.2

Claude Opus 4.1 Thinking

$15.000

$75.000

88.0

Claude Sonnet 4.5 Thinking

$3.000

$15.000

87.5

MiniMax M2.1

$0.290

$0.950

87.5

GPT-5.2 Pro

$10.500

$84.000

87.4

Claude Opus 4 Thinking

$15.000

$75.000

87.3

$1.250

$10.000

87.1

GPT-5.1

$0.625

$5.000

87.0

$1.250

$10.000

86.7

Grok 4

$3.000

$15.000

86.6

GPT-5 Codex

$1.250

$10.000

86.5

DeepSeek V3.2 Speciale

$0.287

$0.431

86.3

Gemini 2.5 Pro

$1.000

$10.000

86.2

DeepSeek V3.2 Thinking

$0.252

$0.378

86.2

Claude Opus 4

$15.000

$75.000

86.0

$1.250

$10.000

86.0

Claude Sonnet 4.5

$3.000

$15.000

86.0

GPT-5.1-Codex

$1.250

$10.000

86.0

GPT-5.2

$0.875

$7.000

85.9

Gemini 2.5 Pro Preview 06-05

$1.250

$10.000

85.8

GLM 4.7 Thinking

$0.400

$1.750

85.6

Grok 4.1 Fast Thinking

$0.200

$0.500

85.4

$2.000

$8.000

85.3

DeepSeek V3.1 Thinking

$0.210

$0.790

85.1

DeepSeek V3.1 Terminus Thinking

$0.270

$0.950

85.1

Grok 4 Fast Thinking

$0.200

$0.500

85.0

DeepSeek V3.2 Exp Thinking

$0.270

$0.410

85.0

R1 0528

$0.500

$2.150

84.9

Cogito v2.1 671B Thinking

Deep Cogito

$0.900

84.9

Kimi

Kimi K2 0711

$0.550

$2.200

84.8

$0.550

$2.000

84.4

Qwen3 235B A22B Thinking 2507 Thinking

$0.149

$0.900

84.3

Xiaomi

MiMo-V2-Flash Thinking

$0.100

$0.300

84.3

Claude Sonnet 4 Thinking

$3.000

$15.000

84.2

$15.000

$60.000

84.1

Qwen3 Max

$0.780

$3.900

84.1

Qwen3 Max

$0.780

$3.900

83.8

Claude 3.7 Sonnet Thinking

$3.000

$15.000

83.7

Gemini 2.5 Pro Preview 05-06

$1.250

$10.000

83.7

Claude Sonnet 4

$3.000

$15.000

83.7

GPT-5 Mini

$0.250

$2.000

83.7

DeepSeek V3.2

$0.252

$0.378

83.7

DeepSeek V3.1 Terminus

$0.270

$0.950

83.6

Qwen3 VL 235B A22B Thinking Thinking

$0.260

$0.900

83.6

DeepSeek V3.2 Exp

$0.270

$0.410

83.6

GLM 4.5 Thinking

$0.600

$2.200

83.5

DeepSeek V3.1

$0.210

$0.790

83.3

o4 Mini

$1.100

$4.400

83.2

Gemini 2.5 Flash Thinking

$0.300

$2.500

83.2

Hermes 4 405B Thinking

$1.000

$3.000

82.9

GLM 4.6 Thinking

$0.390

$1.740

82.9

Qwen3 235B A22B Thinking

$0.455

$0.900

82.8

Grok 3 Mini

$0.250

$0.500

82.8

Qwen3 235B A22B Instruct 2507

$0.071

$0.100

82.8

GPT-5 Mini

$0.250

$2.000

82.8

Qwen3 Max Thinking Thinking

$0.780

$3.900

82.4

Kimi

Kimi K2 0711

$0.550

$2.200

82.4

Qwen3 Next 80B A3B Thinking Thinking

$0.098

$0.300

82.4

Qwen3 Max Thinking

$0.780

$3.900

82.4

Qwen3 VL 235B A22B Instruct

$0.200

$0.880

82.3

Prime Intellect

INTELLECT-3

$0.200

$1.100

82.2

GPT-5 Chat

$1.250

$10.000

82.0

MiniMax M2

$0.255

$1.000

82.0

GPT-5.1-Codex-Mini

$0.250

$2.000

82.0

DeepSeek V3 0324

$0.200

$0.770

81.9

Kimi

Kimi K2 0905 (exacto)

$0.400

$2.000

81.9

Qwen3 Next 80B A3B Instruct

$0.090

$0.780

81.9

Qwen3 VL 32B Instruct Thinking

$0.104

$0.416

81.8

MiniMax M1

$0.400

$2.200

81.6

GLM 4.5 Air

$0.130

$0.850

81.5

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

81.4

GPT-5.2

$0.875

$7.000

81.4

KwaiKAT

KAT-Coder-Pro V1

$0.207

$0.828

81.3

Hermes 4 70B Thinking

$0.130

$0.400

81.1

Llama 4 Maverick

$0.150

$0.600

80.9

Gemini 2.5 Flash

$0.300

$2.500

80.9

MiniMax M1

$0.400

$2.200

80.8

GPT-OSS-120b

$0.039

$0.180

80.8

Gemini 2.5 Flash Lite Preview 09-2025 Thinking

$0.100

$0.400

80.8

Qwen3 VL 30B A3B Thinking Thinking

$0.130

$0.900

80.7

GPT-4.1

$2.000

$8.000

80.6

$1.250

$10.000

80.6

Qwen3 30B A3B Thinking 2507 Thinking

$0.080

$0.300

80.5

Claude 3.7 Sonnet

$3.000

$15.000

80.3

o3 Mini High

$1.100

$4.400

80.2

GPT-5.1

$0.625

$5.000

80.1

Gemini 2.5 Flash Thinking

$0.300

$2.500

80.0

Claude Haiku 4.5

$1.000

$5.000

80.0

Grok 3

$3.000

$15.000

79.9

GLM 4.6V Thinking

$0.300

$0.900

79.9

Qwen3 32B Thinking

$0.080

$0.280

79.8

Gemini 2.5 Flash Lite Preview 09-2025

$0.100

$0.400

79.6

R1 Distill Llama 70B

$0.700

$0.800

79.5

Nemotron 3 Nano 30B A3B Thinking

$0.050

$0.200

79.4

GLM 4.7

$0.400

$1.750

79.4

Grok Code Fast 1

$0.200

$1.500

79.3

o3 Mini

$1.100

$4.400

79.1

Qwen3 VL 32B Instruct

$0.104

$0.416

79.1

Qwen3 Coder 480B A35B (exacto)

$0.220

$0.900

78.8

GLM 4.5V Thinking

$0.600

$1.800

78.8

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

78.5

GLM 4.6

$0.390

$1.740

78.4

Gemini 2.5 Flash

$0.300

$2.500

78.3

GPT-4.1 Mini

$0.200

$0.800

78.1

GPT-5 Nano

$0.050

$0.400

78.0

Gemini 2.0 Flash

$0.100

$0.400

77.9

Qwen3 30B A3B Thinking

$0.080

$0.280

77.7

Qwen3 30B A3B Instruct 2507

$0.090

$0.300

77.7

Baidu

ERNIE 4.5 300B A47B

$0.280

$0.900

77.6

GPT-OSS-120b

$0.039

$0.180

77.5

Qwen3 14B Thinking

$0.060

$0.200

77.4

Claude 3.5 Sonnet

$3.000

$15.000

77.2

GPT-5 Nano

$0.050

$0.400

77.2

QwQ 32B

$0.900

76.4

Qwen3 VL 30B A3B Instruct

$0.130

$0.520

76.4

Olmo 3.1 32B Think

$0.150

$0.500

76.3

Qwen-Max

$1.040

$4.160

76.2

Qwen3 235B A22B

$0.455

$0.900

76.2

Devstral 2 2512

$0.400

$0.900

76.2

Mistral Medium 3

$0.400

$2.000

76.0

Claude Haiku 4.5 Thinking

$1.000

$5.000

76.0

Gemini 2.5 Flash Lite Thinking

$0.100

$0.400

75.9

Nemotron Nano 12B 2 VL Thinking

$0.200

75.9

Olmo 3 32B Think

$0.150

$0.500

75.9

Perplexity

Sonar Pro

$3.000

$15.000

75.5

DeepSeek V3 0324

$0.200

$0.770

75.2

Llama 4 Scout

$0.080

$0.300

75.2

GLM 4.6V

$0.300

$0.900

75.2

GLM 4.5V

$0.600

$1.800

75.1

Qwen3 VL 8B Thinking Thinking

$0.117

$1.365

74.9

GPT-OSS-20b

$0.030

$0.140

74.8

Xiaomi

MiMo-V2-Flash

$0.100

$0.300

74.4

Xiaomi

MiMo-V2-Flash

$0.100

$0.300

74.4

Qwen3 8B Thinking

$0.050

$0.200

74.3

Qwen3 4B Thinking

$0.200

74.3

Grok 4.1 Fast

$0.200

$0.500

74.3

Nova 2 Lite

$0.300

$2.500

74.3

Nemotron Nano 9B V2 Thinking

$0.040

$0.160

74.2

R1 Distill Qwen 32B

$0.290

73.9

Nemotron Nano 9B V2

$0.040

$0.160

73.9

Nova Premier 1.0

$2.500

$12.500

73.3

Llama 3.1 405B Instruct

$0.900

73.2

Grok 4 Fast

$0.200

$0.500

73.0

Hermes 4 405B

$1.000

$3.000

72.9

Qwen3 32B

$0.080

$0.280

72.7

Gemini 2.0 Flash Lite

$0.075

$0.300

72.4

Gemini 2.5 Flash Lite

$0.100

$0.400

72.4

Qwen2.5 72B Instruct

$0.360

$0.400

72.0

GPT-OSS-20b

$0.030

$0.140

71.8

Microsoft

Phi 4

$0.065

$0.140

71.4

Llama 3.3 70B Instruct

$0.100

$0.320

71.3

Cohere

Command A

$2.500

$10.000

71.2

Qwen3 30B A3B

$0.080

$0.280

71.0

Devstral Medium

$0.400

$2.000

70.8

Qwen3 Coder 30B A3B Instruct

$0.070

$0.270

70.6

Pixtral Large 2411

$2.000

$6.000

70.1

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

69.8

Mistral Large 2411

$2.000

$6.000

69.7

Qwen2.5 VL 32B Instruct

$0.900

69.7

Qwen3 4B Thinking

$0.200

69.6

GPT-4 Turbo

$5.000

$15.000

69.4

Ministral 3 14B 2512

$0.200

69.3

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

69.2

Nova Pro 1.0

$0.800

$3.200

69.1

Llama 3.1 Nemotron 70B Instruct

$0.900

69.0

Perplexity

Sonar

$1.000

68.9

Qwen3 VL 8B Instruct

$0.080

$0.200

68.6

Mistral Large 2407

$2.000

$6.000

68.3

Mistral Medium 3.1

$0.400

$2.000

68.3

Mistral Small 3.2 24B

$0.075

$0.200

68.1

Llama 3.1 70B Instruct

$0.340

$0.390

67.6

Qwen3 14B

$0.060

$0.200

67.5

Qwen3 4B

$0.200

67.2

Gemma 3 27B

$0.080

$0.160

66.9

Hermes 4 70B

$0.130

$0.400

66.4

Mistral Small 3.1 24B

$0.100

$0.300

65.9

GPT-4.1 Nano

$0.050

$0.200

65.7

Olmo 3 7B Think

$0.120

$0.200

65.5

Mistral Small 24B Instruct 2501

$0.050

$0.080

65.2

Nemotron Nano 12B 2 VL

$0.200

64.9

GPT-4o-mini

$0.150

$0.600

64.8

QwQ 32B

$0.900

64.8

Qwen3 8B

$0.050

$0.200

64.3

Ministral 3 8B 2512

$0.150

64.2

Qwen2.5 Coder 32B Instruct

$0.660

$0.800

63.5

Claude 3.5 Haiku

$0.800

$4.000

63.4

Qwen-Turbo

$0.033

$0.130

63.3

Devstral Small 1.1

$0.070

$0.280

62.2

Saba

$0.200

$0.600

61.1

Gemma 3 12B

$0.040

$0.130

59.5

Nova Lite 1.0

$0.060

$0.240

59.0

Qwen3 4B

$0.200

58.6

Nemotron 3 Nano 30B A3B

$0.050

$0.200

57.9

AI21 Labs

Jamba Large 1.7

$2.000

$8.000

57.7

Llama 3 70B Instruct

$0.510

$0.740

57.4

Hermes 3 70B Instruct

$0.300

57.1

GPT-5 Nano

$0.050

$0.400

55.6

Mixtral 8x22B Instruct

$1.200

53.7

Nova Micro 1.0

$0.035

$0.140

53.1

Olmo 3 7B Instruct

$0.100

$0.200

52.2

Mistral Large

$0.500

$1.500

51.5

Olmo 2 32B Instruct

$0.050

$0.200

51.1

Liquid AI

LiquidAI/LFM2-8B-A1B

$0.010

$0.020

50.5

Gemma 3n 4B

$0.060

$0.120

48.8

Llama 3.1 8B Instruct

$0.020

$0.050

47.6

Qwen2.5 Coder 7B Instruct

$0.200

47.3

Llama 3.2 11B Vision Instruct

$0.060

46.4

GPT-3.5 Turbo

$0.500

$1.000

46.2

Gemma 3 4B

$0.040

$0.080

41.7

Llama 3 8B Instruct

$0.040

40.5

Mixtral 8x7B Instruct

$0.140

$0.420

38.7

Llama 3.2 3B Instruct

$0.030

$0.050

34.7

Llama 3.2 1B Instruct

$0.020

20.0