MMLU Leaderboard

Massive Multitask Language Understanding — tests knowledge across 57 subjects.

As of June 2, 2026, the top-scoring model on MMLU is GLM 5 at 91.7%, followed by GLM 5 at 91.7% and R1 0528 at 90.5%. 36 models have been evaluated on this benchmark.

Last updated: June 2, 2026

Models

Best Score

91.7

Average

79.2

Std Dev

17.1

Categories

General Knowledge

SourceLayerLens

Provider	Model	Input $/M	Output $/M	MMLU	Actions
Z Z AI	GLM 5 Thinking	$0.600	$2.080	91.7	Try
Z Z AI	GLM 5	$0.600	$2.080	91.7	Try
DS DeepSeek	R1 0528	$0.500	$2.150	90.5	Try
X Xai	Grok 3 Mini Beta	$0.300	$0.500	89.2	Try
O OpenAI	o3 Mini	$0.550	$2.200	88.9	Try
K Kimi	Kimi K2 0711	$0.550	$2.200	88.3	Try
K Kimi	Kimi K2 0711	$0.550	$2.200	88.3	Try
O OpenAI	GPT-OSS-120b	$0.039	$0.100	87.6	Try
O OpenAI	GPT-OSS-120b	$0.039	$0.100	87.6	Try
AL Alibaba	QwQ 32B	$0.900	$0.900	85.9	Try
AL Alibaba	QwQ 32B	$0.900	$0.900	85.9	Try
G Google	Gemini 2.5 Flash Thinking	$0.300	$2.500	85.7	Try
G Google	Gemini 2.5 Flash Thinking	$0.300	$2.500	85.7	Try
G Google	Gemini 2.5 Flash	$0.300	$2.500	85.7	Try
G Google	Gemini 2.5 Flash	$0.300	$2.500	85.7	Try
M Meta	Llama 4 Maverick	$0.150	$0.600	85.5	Try
A Anthropic	Claude 3.7 Sonnet Thinking	$3.000	$15.000	85.3	Try
A Anthropic	Claude 3.7 Sonnet	$3.000	$15.000	85.3	Try
AL Alibaba	Qwen3 30B A3B Thinking	$0.080	$0.280	85.3	Try
AL Alibaba	Qwen3 30B A3B	$0.080	$0.280	85.3	Try
G Google	Gemini 2.0 Flash	$0.100	$0.400	84.8	Try
O OpenAI	GPT-4.1	$2.000	$8.000	84.6	Try
BD Baidu	ERNIE 4.5 300B A47B	$0.900	$0.900	84.5	Try
CO Cohere	Command A	$2.500	$10.000	84.1	Try
DS Deepseek	DeepSeek V3	$0.014	$0.028	83.4	Try
MI Mistral	Mistral Medium 3	$0.400	$2.000	82.6	Try
AM Amazon	Nova Pro 1.0	$0.800	$3.200	78.3	Try
MS Microsoft	Phi 4	$0.065	$0.140	77.6	Try
MI Mistral	Pixtral Large 2411	$2.000	$6.000	77.2	Try
MI Mistral	Mistral Small 3.2 24B	$0.075	$0.200	76.0	Try
MI Mistral	Devstral Small 1.1	$0.070	$0.280	73.5	Try
A Anthropic	Claude 3.5 Haiku	$0.800	$4.000	72.8	Try
AM Amazon	Nova Micro 1.0	$0.035	$0.140	68.9	Try
M Meta	Llama 3.1 405B Instruct	$0.900	$0.900	37.1	Try
M Meta	Llama 4 Scout	$0.080	$0.300	24.6	Try
M Meta	Llama 3.2 3B Instruct	$0.030	$0.050	15.3	Try

Pricing from OpenRouter. Benchmarks from Artificial Analysis.

Get our weekly newsletter on pricing changes, new releases, and tools.

Join the Price Per Token Community

8 Ways to Use Fewer Tokens

About MMLU

Massive Multitask Language Understanding — tests knowledge across 57 subjects.

This leaderboard shows all models with MMLU benchmark scores, ranked from highest to lowest. Pricing data is included to help you compare performance against cost.