GPQA Leaderboard

Gemini 3.1 Pro Preview

$2.000

$12.000

94.1

GPT-5.4

$2.500

$15.000

92.0

GPT-5.3 Codex

$1.750

$14.000

91.5

Claude Opus 4.7

$5.000

$25.000

91.4

Kimi K2.6

$0.730

$3.400

91.1

Gemini 3 Pro Preview

$2.000

$12.000

90.8

GPT-5.2 Pro

$10.500

$84.000

90.3

GPT-5.2-Codex

$1.750

$14.000

89.9

Gemini 3 Flash Preview Thinking

$0.500

$3.000

89.8

Claude Opus 4.6 Thinking

$5.000

$25.000

89.6

DeepSeek V4 Flash (Non-Reasoning)

$0.112

$0.224

89.4

Qwen3.5 397B A17B

$0.390

$0.900

89.3

DeepSeek V4 Pro

$0.435

$0.870

88.8

Gemini 3 Pro Preview

$2.000

$12.000

88.7

Claude Opus 4.7

$5.000

$25.000

88.5

Kimi K2.5 Thinking

$0.400

$1.900

87.9

Grok 4

$3.000

$15.000

87.7

Claude Sonnet 4.6

$3.000

$15.000

87.5

MiniMax M2.7

$0.279

$1.200

87.4

GPT-5.1

$0.625

$5.000

87.3

DeepSeek V3.2 Speciale

$0.287

$0.431

87.1

GPT-5.4

$2.500

$15.000

87.1

GLM 5.1

$0.980

$3.080

86.8

Claude Opus 4.5 Thinking

$5.000

$25.000

86.6

MiMo v2.5 Pro

$1.000

$3.000

86.6

GPT-5.2

$0.875

$7.000

86.4

Qwen3 Max Thinking Thinking

$0.780

$3.900

86.1

Qwen3.5 397B A17B

$0.390

$0.900

86.1

GPT-5.1-Codex

$1.250

$10.000

86.0

GLM 4.7 Thinking

$0.400

$1.750

85.9

Qwen3.5-27B

$0.195

$0.900

85.8

Qwen3.5-122B-A10B

$0.260

$0.900

85.7

Gemma 4 31B Instruct

$0.120

$0.370

85.7

$1.250

$10.000

85.4

Grok 4.1 Fast Thinking

$0.200

$0.500

85.3

MiniMax M2.5

$0.150

$1.150

84.8

Grok 4 Fast Thinking

$0.200

$0.500

84.7

GLM-5 Turbo

$1.200

$4.000

84.7

MiMo-V2-Flash Thinking

$0.100

$0.300

84.6

o3 Pro

$20.000

$80.000

84.5

Qwen3.5-35B-A3B

$0.140

$0.900

84.5

Gemini 2.5 Pro

$1.000

$10.000

84.4

$1.250

$10.000

84.2

Qwen3.5-27B

$0.195

$0.900

84.2

Qwen3.6 35B A3B

$0.150

$0.900

84.1

DeepSeek V3.2 Thinking

$0.252

$0.378

84.0

Claude Opus 4.6

$5.000

$25.000

84.0

GLM 5.1

$0.980

$3.080

83.9

Kimi K2 0711

$0.550

$2.200

83.8

GPT-5 Codex

$1.250

$10.000

83.7

Gemini 2.5 Pro Preview 06-05

$1.250

$10.000

83.6

MiMo-V2-Flash

$0.100

$0.300

83.5

Claude Sonnet 4.5 Thinking

$3.000

$15.000

83.4

StepFun

Step 3.5 Flash

$0.100

$0.300

83.1

MiniMax M2.1

$0.290

$0.950

83.0

GPT-5 Mini

$0.250

$2.000

82.8

MiMo v2 Omni

$0.400

$2.000

82.8

$2.000

$8.000

82.7

Qwen3.5-122B-A10B

$0.260

$0.900

82.7

StepFun

Step 3.5 Flash

$0.100

$0.300

82.6

Gemini 2.5 Pro Preview 05-06

$1.250

$10.000

82.2

Gemini 3.1 Flash Lite Preview

$0.250

$1.500

82.2

GLM 5 Thinking

$0.600

$1.920

82.0

Qwen3.5-35B-A3B

$0.140

$0.900

81.9

Qwen3.6 35B A3B

$0.150

$0.900

81.7

R1 0528

$0.500

$2.150

81.3

GPT-5.1-Codex-Mini

$0.250

$2.000

81.3

Gemini 3 Flash Preview

$0.500

$3.000

81.2

Baidu

ERNIE 4.5 300B A47B

$0.280

$0.900

81.1

Claude Opus 4.5

$5.000

$25.000

81.0

Claude Opus 4.1 Thinking

$15.000

$75.000

80.9

GLM-5V Turbo

$1.200

$4.000

80.9

$1.250

$10.000

80.8

Qwen3.5 9B

$0.040

$0.150

80.6

GPT-5 Mini

$0.250

$2.000

80.3

Claude Sonnet 4.6

$3.000

$15.000

79.9

DeepSeek V3.2 Exp Thinking

$0.270

$0.410

79.7

Claude Sonnet 4.6

$3.000

$15.000

79.7

Claude Opus 4 Thinking

$15.000

$75.000

79.6

DeepSeek V3.1 Terminus Thinking

$0.270

$0.950

79.2

Gemma 4 26B A4B Instruct

$0.060

$0.300

79.2

Grok 3 Mini

$0.250

$0.500

79.1

Gemini 2.5 Flash Thinking

$0.300

$2.500

79.0

Qwen3 235B A22B Thinking 2507 Thinking

$0.149

$0.900

79.0

Kimi K2.5

$0.400

$1.900

78.9

Kimi K2.6

$0.730

$3.400

78.8

Qwen3.5 9B

$0.040

$0.150

78.6

o4 Mini

$1.100

$4.400

78.4

GLM 4.5 Thinking

$0.600

$2.200

78.2

GPT-OSS-120b

$0.039

$0.180

78.2

GLM 4.6 Thinking

$0.390

$1.740

78.0

DeepSeek V3.1 Thinking

$0.210

$0.790

77.9

Claude Sonnet 4 Thinking

$3.000

$15.000

77.7

MiniMax M2

$0.255

$1.000

77.7

Qwen3 Max Thinking

$0.780

$3.900

77.6

o3 Mini High

$1.100

$4.400

77.3

Claude 3.7 Sonnet Thinking

$3.000

$15.000

77.2

Qwen3 VL 235B A22B Thinking Thinking

$0.260

$0.900

77.2

Inception

Mercury 2

$0.250

$0.750

77.0

Cogito v2.1 671B Thinking

Deep Cogito

$0.900

76.8

Kimi K2 0905 (exacto)

$0.400

$2.000

76.7

Kimi K2 0711

$0.550

$2.200

76.6

Qwen3 Max

$0.780

$3.900

76.4

Qwen3 Max

$0.780

$3.900

76.4

KwaiKAT

KAT-Coder-Pro V1

$0.207

$0.828

76.4

MiMo v2.5 Pro

$1.000

$3.000

76.2

Prime Intellect

INTELLECT-3

$0.200

$1.100

76.1

Qwen3 Next 80B A3B Thinking Thinking

$0.098

$0.300

75.9

Nemotron 3 Nano 30B A3B Thinking

$0.050

$0.200

75.7

Qwen3 235B A22B Instruct 2507

$0.071

$0.100

75.3

DeepSeek V3.1 Terminus

$0.270

$0.950

75.1

DeepSeek V3.2

$0.252

$0.378

75.1

o3 Mini

$1.100

$4.400

74.8

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

74.8

GPT-5.4

$2.500

$15.000

74.8

$15.000

$60.000

74.7

Qwen3 Next 80B A3B Instruct

$0.090

$0.780

73.8

DeepSeek V3.2 Exp

$0.270

$0.410

73.8

Qwen3 Coder Next

$0.110

$0.800

73.7

DeepSeek V3.1

$0.210

$0.790

73.5

GLM 4.5 Air

$0.130

$0.850

73.3

Qwen3 VL 32B Instruct Thinking

$0.104

$0.416

73.3

Hermes 4 405B Thinking

$1.000

$3.000

72.7

Grok Code Fast 1

$0.200

$1.500

72.7

Claude Sonnet 4.5

$3.000

$15.000

72.7

Qwen3 VL 30B A3B Thinking Thinking

$0.130

$0.900

72.0

GLM 4.6V Thinking

$0.300

$0.900

71.9

DeepSeek V4 Pro

$0.435

$0.870

71.7

DeepSeek V4 Flash (Non-Reasoning)

$0.112

$0.224

71.6

Gemma 4 26B A4B Instruct

$0.060

$0.300

71.4

Qwen3 VL 235B A22B Instruct

$0.200

$0.880

71.2

GPT-5.2

$0.875

$7.000

71.2

Gemini 2.5 Flash Lite Preview 09-2025 Thinking

$0.100

$0.400

70.9

$0.550

$2.000

70.8

Qwen3 30B A3B Thinking 2507 Thinking

$0.080

$0.300

70.7

Claude Opus 4

$15.000

$75.000

70.1

Qwen3 235B A22B Thinking

$0.455

$0.900

70.0

Hermes 4 70B Thinking

$0.130

$0.400

69.9

Gemini 2.5 Flash Thinking

$0.300

$2.500

69.8

MiniMax M1

$0.400

$2.200

69.7

Qwen3 VL 30B A3B Instruct

$0.130

$0.520

69.5

Grok 3

$3.000

$15.000

69.3

GPT-OSS-20b

$0.030

$0.140

68.8

GPT-5 Chat

$1.250

$10.000

68.6

GLM 4.5V Thinking

$0.600

$1.800

68.4

Claude Sonnet 4

$3.000

$15.000

68.3

Gemini 2.5 Flash

$0.300

$2.500

68.3

MiniMax M1

$0.400

$2.200

68.2

GPT-5 Nano

$0.050

$0.400

67.6

$1.250

$10.000

67.3

GPT-OSS-120b

$0.039

$0.180

67.2

Claude Haiku 4.5 Thinking

$1.000

$5.000

67.2

Llama 4 Maverick

$0.150

$0.600

67.1

Qwen3 VL 32B Instruct

$0.104

$0.416

67.1

GPT-5 Nano

$0.050

$0.400

67.0

Qwen3 32B Thinking

$0.080

$0.280

66.8

Qwen3 4B Thinking

$0.200

66.7

GPT-4.1

$2.000

$8.000

66.6

GLM 5

$0.600

$1.920

66.6

GPT-4.1 Mini

$0.200

$0.800

66.4

GLM 4.7

$0.400

$1.750

66.4

Qwen3 30B A3B Instruct 2507

$0.090

$0.300

65.9

Claude 3.7 Sonnet

$3.000

$15.000

65.6

MiMo-V2-Flash

$0.100

$0.300

65.6

DeepSeek V3 0324

$0.200

$0.770

65.5

Gemini 2.5 Flash Lite Preview 09-2025

$0.100

$0.400

65.1

Claude Haiku 4.5

$1.000

$5.000

64.6

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

64.3

GPT-5.1

$0.625

$5.000

64.3

Grok 4.1 Fast

$0.200

$0.500

63.7

GLM 4.6

$0.390

$1.740

63.2

Gemini 2.5 Flash Lite Thinking

$0.100

$0.400

62.5

Gemini 2.0 Flash

$0.100

$0.400

62.3

Qwen3 Coder 480B A35B (exacto)

$0.220

$0.900

61.8

Qwen3 30B A3B Thinking

$0.080

$0.280

61.6

R1 Distill Qwen 32B

$0.290

61.5

Qwen3 235B A22B

$0.455

$0.900

61.3

GPT-OSS-20b

$0.030

$0.140

61.1

Olmo 3 32B Think

$0.150

$0.500

61.0

Grok 4 Fast

$0.200

$0.500

60.6

Qwen3 14B Thinking

$0.060

$0.200

60.4

Nova 2 Lite

$0.300

$2.500

60.3

Claude 3.5 Sonnet

$3.000

$15.000

59.9

Gemini 2.5 Flash

$0.300

$2.500

59.4

Devstral 2 2512

$0.400

$0.900

59.4

QwQ 32B

$0.900

59.3

InclusionAI

Ling 2.6 Flash

$0.010

$0.030

59.3

Olmo 3.1 32B Think

$0.150

$0.500

59.1

Qwen3 8B Thinking

$0.050

$0.200

58.9

Mistral Medium 3.1

$0.400

$2.000

58.8

Qwen-Max

$1.040

$4.160

58.7

Llama 4 Scout

$0.080

$0.300

58.7

GLM-4.7-Flash Thinking

$0.060

$0.400

58.1

Qwen3 VL 8B Thinking Thinking

$0.117

$1.365

57.9

Perplexity

Sonar Pro

$3.000

$15.000

57.8

Mistral Medium 3

$0.400

$2.000

57.8

Microsoft

Phi 4

$0.065

$0.140

57.5

GLM 4.5V

$0.600

$1.800

57.3

Nemotron Nano 12B 2 VL Thinking

$0.200

57.2

Ministral 3 14B 2512

$0.200

57.2

Nemotron Nano 9B V2 Thinking

$0.040

$0.160

57.0

Nova Premier 1.0

$2.500

$12.500

56.9

GLM 4.6V

$0.300

$0.900

56.6

QwQ 32B

$0.900

55.7

DeepSeek V3 0324

$0.200

$0.770

55.7

Nemotron Nano 9B V2

$0.040

$0.160

55.7

Gemini 2.0 Flash Lite

$0.075

$0.300

54.2

Olmo 3.1 32B Instruct

$0.200

$0.600

53.9

Hermes 4 405B

$1.000

$3.000

53.6

Gemini 2.0 Flash Lite

$0.075

$0.300

53.5

Qwen3 32B

$0.080

$0.280

53.5

Cohere

Command A

$2.500

$10.000

52.7

Qwen3 4B Thinking

$0.200

52.2

Qwen3 4B

$0.200

51.7

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

51.7

Qwen3 Coder 30B A3B Instruct

$0.070

$0.270

51.6

Olmo 3 7B Think

$0.120

$0.200

51.6

Llama 3.1 405B Instruct

$0.900

51.5

Qwen3 30B A3B

$0.080

$0.280

51.5

GPT-4.1 Nano

$0.050

$0.200

51.2

Pixtral Large 2411

$2.000

$6.000

50.5

Mistral Small 3.2 24B

$0.075

$0.200

50.5

Nova Pro 1.0

$0.800

$3.200

49.9

Llama 3.3 70B Instruct

$0.100

$0.320

49.8

Devstral Medium

$0.400

$2.000

49.2

Qwen2.5 72B Instruct

$0.360

$0.400

49.1

Hermes 4 70B

$0.130

$0.400

49.1

Mistral Large 2411

$2.000

$6.000

48.6

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

48.1

Gemini 2.5 Flash Lite

$0.100

$0.400

47.4

Mistral Large 2407

$2.000

$6.000

47.2

Perplexity

Sonar

$1.000

47.1

Ministral 3 8B 2512

$0.150

47.1

Qwen3 14B

$0.060

$0.200

47.0

Qwen2.5 VL 32B Instruct

$0.900

46.6

Llama 3.1 Nemotron 70B Instruct

$0.900

46.5

Mistral Small 24B Instruct 2501

$0.050

$0.080

46.2

Mistral Small 3.1 24B

$0.100

$0.300

45.4

Qwen3 8B

$0.050

$0.200

45.2

GLM-4.7-Flash

$0.060

$0.400

45.2

Nemotron Nano 12B 2 VL

$0.200

43.9

Nova Lite 1.0

$0.060

$0.240

43.3

Gemma 3 27B

$0.080

$0.160

42.8

GPT-5 Nano

$0.050

$0.400

42.8

Qwen3 VL 8B Instruct

$0.080

$0.200

42.7

GPT-4o-mini

$0.150

$0.600

42.6

Molmo 2 8B

$0.200

42.5

Saba

$0.200

$0.600

42.4

Qwen2.5 Coder 32B Instruct

$0.660

$0.800

41.7

Devstral Small 1.1

$0.070

$0.280

41.4

Qwen-Turbo

$0.033

$0.130

41.0

Llama 3.1 70B Instruct

$0.340

$0.390

40.9

Claude 3.5 Haiku

$0.800

$4.000

40.8

R1 Distill Llama 70B

$0.700

$0.800

40.2

Hermes 3 70B Instruct

$0.300

40.1

Olmo 3 7B Instruct

$0.100

$0.200

40.0

Nemotron 3 Nano 30B A3B

$0.050

$0.200

39.9

Qwen3 4B

$0.200

39.8

AI21 Labs

Jamba Large 1.7

$2.000

$8.000

39.0

Llama 3 70B Instruct

$0.510

$0.740

37.9

Claude 3 Haiku

$0.250

$1.250

37.4

Nova Micro 1.0

$0.035

$0.140

35.8

Mistral Large

$0.500

$1.500

35.1

Gemma 3 12B

$0.040

$0.130

34.9

Liquid AI

LiquidAI/LFM2-8B-A1B

$0.010

$0.020

34.4

Qwen2.5 Coder 7B Instruct

$0.200

33.9

Mixtral 8x22B Instruct

$1.200

33.2

Olmo 2 32B Instruct

$0.050

$0.200

32.8

GPT-3.5 Turbo

$0.500

$1.000

29.7

Llama 3 8B Instruct

$0.040

29.6

Gemma 3n 4B

$0.060

$0.120

29.6

Mixtral 8x7B Instruct

$0.140

$0.420

29.2

Gemma 3 4B

$0.040

$0.080

29.1

Llama 3.1 8B Instruct

$0.020

$0.050

25.9

Llama 3.2 3B Instruct

$0.030

$0.050

25.5

Llama 3.2 11B Vision Instruct

$0.060

22.1

Llama 3.2 1B Instruct

$0.020

19.6