BBH Leaderboard

Claude Sonnet 4.5 Thinking

$3.000

$15.000

94.4

Claude Sonnet 4.5

$3.000

$15.000

94.3

GLM 5 Thinking

$0.600

$1.920

94.3

GLM 5

$0.600

$1.920

94.3

Gemini 3 Pro Preview

$2.000

$12.000

93.8

Gemini 3 Pro Preview

$2.000

$12.000

93.8

Qwen3.5-122B-A10B

$0.260

$0.900

92.7

Qwen3.5-122B-A10B

$0.260

$0.900

92.7

Qwen3 Max

$0.780

$3.900

92.6

Qwen3 Max

$0.780

$3.900

92.6

Qwen3.5-27B

$0.195

$0.900

92.4

Qwen3.5-27B

$0.195

$0.900

92.4

Kimi K2.5 Thinking

$0.400

$1.900

91.0

Kimi K2.5

$0.400

$1.900

91.0

Claude 3.7 Sonnet Thinking

$3.000

$15.000

91.0

Claude 3.7 Sonnet

$3.000

$15.000

91.0

$1.250

$10.000

90.9

$1.250

$10.000

90.9

$1.250

$10.000

90.9

$1.250

$10.000

90.9

Qwen3.5-35B-A3B

$0.140

$0.900

90.8

Qwen3.5-35B-A3B

$0.140

$0.900

90.8

Qwen

Qwen3.5-Flash

$0.065

$0.260

90.6

Qwen

Qwen3.5 Plus

$0.260

$1.560

90.6

Claude Sonnet 4.6

$3.000

$15.000

90.3

Claude Sonnet 4.6

$3.000

$15.000

90.3

Claude Sonnet 4.6

$3.000

$15.000

90.3

Grok 4 Fast

$0.200

$0.500

89.6

$2.000

$8.000

89.6

Qwen3 30B A3B Thinking

$0.080

$0.280

89.5

Qwen3 30B A3B

$0.080

$0.280

89.5

Qwen3.5 397B A17B

$0.390

$0.900

89.4

Qwen3.5 397B A17B

$0.390

$0.900

89.4

Grok 4 Fast Thinking

$0.200

$0.500

89.3

Llama 3.1 405B Instruct

$0.900

89.0

Gemini 2.5 Pro

$1.000

$10.000

88.7

DeepSeek V3.2 Thinking

$0.252

$0.378

88.5

GLM 4.7 Thinking

$0.400

$1.750

88.4

GLM 4.7

$0.400

$1.750

88.4

Gemini 2.0 Flash

$0.100

$0.400

88.3

DeepSeek V3.2 Exp Thinking

$0.270

$0.410

88.0

R1 0528

$0.500

$2.150

87.9

GPT-5 Mini

$0.250

$2.000

87.7

GPT-5 Mini

$0.250

$2.000

87.7

Qwen3 235B A22B Instruct 2507

$0.071

$0.100

87.4

Kimi K2 0711

$0.550

$2.200

87.1

Kimi K2 0711

$0.550

$2.200

87.1

GPT-5 Nano

$0.050

$0.400

86.9

GPT-5 Nano

$0.050

$0.400

86.9

GPT-5 Nano

$0.050

$0.400

86.9

Kimi K2 0905 (exacto)

$0.400

$2.000

86.7

Qwen3 32B Thinking

$0.080

$0.280

85.8

Qwen3 32B

$0.080

$0.280

85.8

Baidu

ERNIE 4.5 300B A47B

$0.280

$0.900

85.7

GLM 4.6 Thinking

$0.390

$1.740

85.5

GLM 4.6

$0.390

$1.740

85.5

MiniMax M2.1

$0.290

$0.950

85.0

Qwen3 14B Thinking

$0.060

$0.200

84.6

Qwen3 14B

$0.060

$0.200

84.6

MiniMax M2.5

$0.150

$1.150

84.5

o3 Mini

$1.100

$4.400

84.4

MiniMax M2

$0.255

$1.000

84.4

Moonshotai

Kimi K2 Thinking

$0.600

$2.500

84.4

Qwen3 235B A22B Thinking

$0.455

$0.900

84.2

Qwen3 235B A22B

$0.455

$0.900

84.2

GPT-OSS-20b

$0.030

$0.140

84.1

GPT-OSS-20b

$0.030

$0.140

84.1

Amazon

Nova Pro 1.0

$0.800

$3.200

83.9

GLM 4.5 Thinking

$0.600

$2.200

83.8

$0.550

$2.000

83.5

GPT-OSS-120b

$0.039

$0.180

82.1

GPT-OSS-120b

$0.039

$0.180

82.1

o4 Mini High

$1.100

$4.400

82.0

Claude Haiku 4.5 Thinking

$1.000

$5.000

82.0

Claude Haiku 4.5

$1.000

$5.000

82.0

Llama 4 Maverick

$0.150

$0.600

81.8

Mistral Medium 3

$0.400

$2.000

81.5

QwQ 32B

$0.900

81.2

QwQ 32B

$0.900

81.2

Mistral Medium 3.1

$0.400

$2.000

80.5

Cohere

Command A

$2.500

$10.000

79.6

Llama 4 Scout

$0.080

$0.300

79.3

GLM 4.5 Air

$0.130

$0.850

77.9

Claude 3.5 Haiku

$0.800

$4.000

77.0

Gemma 3 27B

$0.080

$0.160

76.6

Mistral Small 3.2 24B

$0.075

$0.200

76.5

MiniMax M1

$0.400

$2.200

74.3

MiniMax M1

$0.400

$2.200

74.3

Gemma 3n 4B

$0.060

$0.120

72.7

Qwen2.5 72B Instruct

$0.360

$0.400

72.4

Grok 4.1 Fast Thinking

$0.200

$0.500

72.1

Grok 4.1 Fast

$0.200

$0.500

71.6

Mistral Large 2411

$2.000

$6.000

70.3

Deepseek

DeepSeek V3

$0.014

$0.028

69.8

GPT-5.1

$0.625

$5.000

69.8

GPT-5.1

$0.625

$5.000

69.8

GPT-5.2

$0.875

$7.000

67.6

GPT-5.2

$0.875

$7.000

67.6

Devstral Small 1.1

$0.070

$0.280

64.8

Nousresearch

Hermes 3 405B Instruct

$1.000

64.2

Gemini 2.5 Flash Thinking

$0.300

$2.500

61.6

Gemini 2.5 Flash Thinking

$0.300

$2.500

61.6

Gemini 2.5 Flash

$0.300

$2.500

61.6

Gemini 2.5 Flash

$0.300

$2.500

61.6

Amazon

Nova Micro 1.0

$0.035

$0.140

61.5

DeepSeek V3.1 Terminus Thinking

$0.270

$0.950

60.5

DeepSeek V3.1 Terminus

$0.270

$0.950

60.5

Amazon

Nova Lite 1.0

$0.060

$0.240

59.0

Xai

Grok 3 Beta

$3.000

$15.000

53.8

Grok 3

$3.000

$15.000

53.4

Grok 3

$3.000

$15.000

53.4

DeepSeek V3.2 Exp

$0.270

$0.410

52.8

Devstral Medium

$0.400

$2.000

48.1

Microsoft

Phi 4

$0.065

$0.140

39.4

Llama 3.2 3B Instruct

$0.030

$0.050

36.0

Inflection

Inflection 3 Pi

$2.500

$10.000

28.2