TerminalBench Leaderboard

GPT-5.4

$2.500

$15.000

57.6

Claude Opus 4.7

$5.000

$25.000

54.5

Gemini 3.1 Pro Preview

$2.000

$12.000

53.8

Claude Sonnet 4.6

$3.000

$15.000

53.0

GPT-5.3 Codex

$1.750

$14.000

53.0

Claude Opus 4.7

$5.000

$25.000

51.5

Qwen3.7 Max

$1.250

$3.750

50.8

Claude Opus 4.6

$5.000

$25.000

48.5

Claude Opus 4.5 Thinking

$5.000

$25.000

47.0

GPT-5.2 Pro

$10.500

$84.000

47.0

Claude Opus 4.6 Thinking

$5.000

$25.000

46.2

Claude Sonnet 4.6

$3.000

$15.000

46.2

DeepSeek V4 Pro

$0.435

$0.870

46.2

Gemini 3.5 Flash

$1.500

$9.000

46.2

GPT-5.1

$1.250

$10.000

45.5

Kimi K2.6

$0.684

$3.400

43.9

GPT-5.2

$1.750

$14.000

43.2

GLM 5 Thinking

$0.600

$2.080

43.2

GPT-5.4

$2.500

$15.000

43.2

GLM 5.1

$0.980

$3.080

43.2

MiMo v2.5 Pro

$0.435

$0.870

43.2

Claude Sonnet 4.6

$3.000

$15.000

42.4

Gemini 3 Pro Preview

$2.000

$12.000

41.7

Claude Opus 4.5

$5.000

$25.000

40.9

Qwen3.5 397B A17B

$0.390

$0.900

40.9

Gemini 3.5 Flash

$1.500

$9.000

40.9

GLM 5

$0.600

$2.080

39.4

MiniMax M2.7

$0.279

$1.200

39.4

Gemini 3.5 Flash

$1.500

$9.000

39.4

Gemini 3 Flash Preview Thinking

$0.500

$3.000

38.6

Grok 4

$3.000

$15.000

37.9

$1.250

$10.000

37.9

GPT-5 Codex

$1.250

$10.000

37.9

GPT-5.4

$2.500

$15.000

37.9

Kimi K2.6

$0.684

$3.400

37.9

$2.000

$8.000

37.1

GPT-5.2-Codex

$1.750

$14.000

37.1

Gemma 4 31B Instruct

$0.120

$0.370

36.4

DeepSeek V4 Pro

$0.435

$0.870

36.4

Claude Sonnet 4.5 Thinking

$3.000

$15.000

35.6

DeepSeek V3.2 Thinking

$0.229

$0.343

35.6

Qwen3.5 397B A17B

$0.390

$0.900

35.6

GLM 5.1

$0.980

$3.080

35.6

MiMo v2.5 Pro

$0.435

$0.870

35.6

DeepSeek V4 Flash (Non-Reasoning)

$0.098

$0.197

35.6

GPT-5.1-Codex

$1.250

$10.000

34.8

DeepSeek V3.2 Speciale

$0.270

$0.400

34.8

Kimi K2.5 Thinking

$0.400

$1.900

34.8

MiniMax M2.5

$0.150

$1.150

34.8

MiMo v2 Omni

$0.400

$2.000

34.8

Qwen3.6 35B A3B

$0.140

$0.900

34.8

Claude Opus 4.1 Thinking

$15.000

$75.000

34.3

Gemini 3 Pro Preview

$2.000

$12.000

34.1

DeepSeek V4 Flash (Non-Reasoning)

$0.098

$0.197

34.1

GPT-5 Mini

$0.250

$2.000

33.3

GPT-5.1-Codex-Mini

$0.250

$2.000

33.3

GLM-5 Turbo

$1.200

$4.000

33.3

$1.250

$10.000

32.6

DeepSeek V3.2

$0.229

$0.343

32.6

StepFun

Step 3.5 Flash

$0.090

$0.300

32.6

Qwen3.5-27B

$0.195

$0.900

32.6

GLM-5V Turbo

$1.200

$4.000

32.6

DeepSeek V3.1 Terminus

$0.270

$0.950

31.8

GPT-5.2

$1.750

$14.000

31.8

Gemini 3 Flash Preview

$0.500

$3.000

31.8

GLM 4.7 Thinking

$0.400

$1.540

31.8

Qwen3.5-27B

$0.195

$0.900

31.8

Claude Sonnet 4 Thinking

$3.000

$15.000

31.1

Claude Opus 4 Thinking

$15.000

$75.000

31.1

Kimi K2 0711

$0.550

$2.200

31.1

DeepSeek V3.2 Exp Thinking

$0.270

$0.410

31.1

MiMo-V2-Flash

$0.100

$0.300

31.1

Qwen3.5-122B-A10B

$0.260

$0.900

31.1

DeepSeek V3.1 Terminus Thinking

$0.270

$0.950

30.3

GLM 4.7

$0.400

$1.540

30.3

Qwen3.5-122B-A10B

$0.260

$0.900

29.5

GPT-5 Mini

$0.250

$2.000

28.8

Claude Sonnet 4.5

$3.000

$15.000

28.8

GLM 4.6

$0.430

$1.740

28.8

MiniMax M2.1

$0.290

$0.950

28.8

MiMo-V2-Flash Thinking

$0.100

$0.300

28.0

Claude Sonnet 4

$3.000

$15.000

27.3

Claude Haiku 4.5 Thinking

$1.000

$5.000

27.3

Claude Haiku 4.5

$1.000

$5.000

27.3

StepFun

Step 3.5 Flash

$0.090

$0.300

27.3

Gemini 2.5 Pro

$1.000

$10.000

26.5

$1.250

$10.000

26.5

Qwen3.5-35B-A3B

$0.140

$0.900

26.5

Inception

Mercury 2

$0.250

$0.750

26.5

MiniMax M2

$0.255

$1.000

25.8

MiMo-V2-Flash

$0.100

$0.300

25.8

Qwen3.6 35B A3B

$0.140

$0.900

25.8

DeepSeek V3.1 Thinking

$0.210

$0.790

25.0

DeepSeek V3.2 Exp

$0.270

$0.410

25.0

GLM 4.6 Thinking

$0.430

$1.740

25.0

Gemma 4 26B A4B Instruct

$0.060

$0.300

25.0

DeepSeek V3.1

$0.210

$0.790

24.2

Grok 4.1 Fast Thinking

$0.000

24.2

Qwen3 Max Thinking Thinking

$0.780

$3.900

24.2

Gemini 3.1 Flash Lite Preview

$0.250

$1.500

24.2

Qwen3.5 9B

$0.040

$0.150

24.2

GPT-OSS-120b

$0.039

$0.100

23.5

Kimi K2 0905 (exacto)

$0.600

$2.500

23.5

GPT-5.1

$1.250

$10.000

22.7

GLM 4.5 Thinking

$0.600

$2.200

22.0

GLM-4.7-Flash Thinking

$0.060

$0.400

22.0

Claude 3.7 Sonnet Thinking

$3.000

$15.000

21.2

Claude 3.7 Sonnet

$3.000

$15.000

21.2

InclusionAI

Ling 2.6 Flash

$0.010

$0.030

21.2

GLM 4.5 Air

$0.125

$0.850

20.4

Qwen3 Max

$0.780

$3.900

20.4

Qwen3 Max

$0.780

$3.900

19.7

Qwen3 Coder 480B A35B (exacto)

$0.220

$0.900

18.9

Grok 4 Fast Thinking

$0.200

$0.500

18.9

Devstral 2 2512

$0.400

$0.900

18.9

Kimi K2.5

$0.400

$1.900

18.9

$1.250

$10.000

18.2

Qwen3 Coder Next

$0.110

$0.800

18.2

Qwen3.5 9B

$0.040

$0.150

18.2

Grok 3 Mini

$0.250

$0.500

17.4

GPT-5 Nano

$0.050

$0.400

17.4

Grok Code Fast 1

$0.200

$1.500

17.4

Qwen3 Max Thinking

$0.780

$3.900

17.4

Cogito v2.1 671B Thinking

Deep Cogito

$0.900

16.7

R1 0528

$0.500

$2.150

15.9

Kimi K2 0711

$0.550

$2.200

15.9

DeepSeek V3 0324

$0.200

$0.770

15.2

o4 Mini

$0.550

$2.200

15.2

Qwen3 235B A22B Instruct 2507

$0.071

$0.100

15.2

Qwen3 Coder 30B A3B Instruct

$0.070

$0.270

15.2

Grok 4.1 Fast

$0.000

14.4

GLM 4.6V Thinking

$0.300

$0.900

14.4

GPT-4.1

$2.000

$8.000

13.6

Gemini 2.5 Flash Thinking

$0.300

$2.500

13.6

Qwen3 235B A22B Thinking 2507 Thinking

$0.100

13.6

Nemotron 3 Nano 30B A3B Thinking

$0.050

$0.200

13.6

Gemma 4 26B A4B Instruct

$0.060

$0.300

13.6

$15.000

$60.000

12.9

GPT-5 Chat

$1.250

$10.000

12.9

Gemini 2.5 Flash Lite Preview 09-2025 Thinking

$0.100

$0.400

12.9

Gemini 2.5 Flash

$0.300

$2.500

12.1

GPT-5 Nano

$0.050

$0.400

12.1

Grok 4 Fast

$0.200

$0.500

12.1

Nemotron 3 Nano 30B A3B

$0.050

$0.200

12.1

Grok 3

$3.000

$15.000

11.4

Hermes 4 405B Thinking

$1.000

$3.000

11.4

Qwen3 VL 235B A22B Thinking Thinking

$0.260

$0.900

11.4

GPT-OSS-20b

$0.029

$0.140

10.6

Mistral Medium 3.1

$0.400

$2.000

10.6

Qwen3.5-35B-A3B

$0.140

$0.900

10.6

Hermes 4 405B

$1.000

$3.000

9.8

Qwen3 Next 80B A3B Thinking Thinking

$0.098

$0.300

9.8

Devstral Medium

$0.400

$2.000

9.1

KwaiKAT

KAT-Coder-Pro V1

$0.207

$0.828

9.1

Prime Intellect

INTELLECT-3

$0.200

$1.100

9.1

Qwen3 VL 32B Instruct

$0.104

$0.416

8.3

Mistral Small 3.1 24B

$0.100

$0.300

7.6

GPT-4.1 Mini

$0.400

$1.600

7.6

Qwen3 Next 80B A3B Instruct

$0.090

$0.780

7.6

Gemini 2.5 Flash Lite Preview 09-2025

$0.100

$0.400

7.6

Qwen3 VL 32B Instruct Thinking

$0.104

$0.416

7.6

Llama 3.1 405B Instruct

$0.900

6.8

o3 Mini

$0.550

$2.200

6.8

DeepSeek V3 0324

$0.200

$0.770

6.8

Llama 4 Maverick

$0.150

$0.600

6.8

Qwen3 30B A3B

$0.080

$0.280

6.8

Mistral Small 3.2 24B

$0.075

$0.200

6.8

GPT-5 Nano

$0.050

$0.400

6.8

GLM 4.5V

$0.600

$1.800

6.8

Qwen3 VL 235B A22B Instruct

$0.200

$0.880

6.8

Nova Premier 1.0

$2.500

$12.500

6.8

Nova 2 Lite

$0.300

$2.500

6.8

Mistral Large 2411

$2.000

$6.000

6.1

Nova Pro 1.0

$0.800

$3.200

6.1

$0.550

$2.000

6.1

o3 Mini High

$1.100

$4.400

6.1

Qwen3 235B A22B Thinking

$0.455

$0.900

6.1

Qwen3 235B A22B

$0.455

$0.900

6.1

Baidu

ERNIE 4.5 300B A47B

$0.900

6.1

Devstral Small 1.1

$0.070

$0.280

6.1

Qwen3 30B A3B Instruct 2507

$0.043

$0.172

6.1

Qwen3 VL 30B A3B Instruct

$0.130

$0.520

6.1

Qwen3 14B

$0.080

$0.200

5.3

GPT-OSS-120b

$0.039

$0.100

5.3

GLM 4.5V Thinking

$0.600

$1.800

5.3

Qwen3 30B A3B Thinking 2507 Thinking

$0.080

$0.400

5.3

Qwen3 VL 30B A3B Thinking Thinking

$0.130

$0.900

5.3

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

5.3

Qwen2.5 72B Instruct

$0.360

$0.400

4.5

Llama 3.1 Nemotron 70B Instruct

$0.900

4.5

Qwen3 4B

$0.200

4.5

Gemini 2.5 Flash Lite Thinking

$0.100

$0.400

4.5

GPT-OSS-20b

$0.029

$0.140

4.5

Hermes 4 70B Thinking

$0.130

$0.400

4.5

Nemotron Nano 12B 2 VL Thinking

$0.200

4.5

Ministral 3 8B 2512

$0.150

4.5

Ministral 3 14B 2512

$0.200

4.5

Microsoft

Phi 4

$0.065

$0.140

3.8

Gemini 2.0 Flash

$0.100

$0.400

3.8

Gemma 3 27B

$0.080

$0.160

3.8

GPT-4.1 Nano

$0.100

$0.400

3.8

Qwen3 14B Thinking

$0.080

$0.200

3.8

Mistral Medium 3

$0.400

$2.000

3.8

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

3.8

Qwen3 VL 8B Thinking Thinking

$0.117

$1.365

3.8

GLM-4.7-Flash

$0.060

$0.400

3.8

Llama 3.1 70B Instruct

$0.340

$0.390

3.0

Llama 3.3 70B Instruct

$0.100

$0.320

3.0

Qwen3 32B Thinking

$0.080

$0.280

3.0

MiniMax M1

$0.400

$2.200

3.0

GLM 4.6V

$0.300

$0.900

3.0

Claude 3.5 Haiku

$0.800

$4.000

2.3

Qwen3 8B Thinking

$0.050

$0.200

2.3

Qwen3 8B

$0.050

$0.200

2.3

Qwen3 30B A3B Thinking

$0.080

$0.280

2.3

Gemma 3n 4B

$0.060

$0.120

2.3

MiniMax M1

$0.400

$2.200

2.3

Gemini 2.5 Flash Lite

$0.100

$0.400

2.3

AI21 Labs

Jamba Large 1.7

$2.000

$8.000

2.3

Qwen3 VL 8B Instruct

$0.080

$0.200

2.3

Nova Micro 1.0

$0.035

$0.140

1.5

R1 Distill Llama 70B

$0.700

$0.800

1.5

Llama 4 Scout

$0.080

$0.300

1.5

Qwen3 4B Thinking

$0.200

1.5

Nemotron Nano 9B V2 Thinking

$0.040

$0.160

1.5

Olmo 3 32B Think

$0.150

$0.500

1.5

Claude 3 Haiku

$0.250

$1.250

0.8

Llama 3 70B Instruct

$0.510

$0.740

0.8

Llama 3.1 8B Instruct

$0.020

$0.050

0.8

Llama 3.2 11B Vision Instruct

$0.060

0.8

Nova Lite 1.0

$0.060

$0.240

0.8

Cohere

Command A

$2.500

$10.000

0.8

Gemma 3 12B

$0.040

$0.130

0.8

Gemma 3 4B

$0.040

$0.080

0.8

Nemotron Nano 9B V2

$0.040

$0.160

0.8

Olmo 3 7B Think

$0.120

$0.200

0.8

$0.040

Llama 3.2 1B Instruct

$0.020

Olmo 2 32B Instruct

$0.050

$0.200

Hermes 4 70B

$0.130

$0.400

Llama 3.3 Nemotron Super 49B V1.5 Thinking

$0.100

$0.400

Llama 3.3 Nemotron Super 49B V1.5

$0.100

$0.400

Liquid AI

LiquidAI/LFM2-8B-A1B

$0.010

$0.020

Nemotron Nano 12B 2 VL

$0.200

Olmo 3 7B Instruct

$0.100

$0.200

Olmo 3.1 32B Think

$0.150

$0.500

Olmo 3.1 32B Instruct

$0.200

$0.600

Molmo 2 8B

$0.200