Coding benchmarks

Code generation and completion tasks from Code Arena (Elo) and LiveBench.

Code Arena

#	Model	Score	Input $/M	Output $/M	Context	Votes
1	Claude Fable 5Anthropic	1650Elo	$10	$50	1M	2.2K
2	glm-5.2 (max)Z.AI	1580Elo	$1.40	$4.40	1M	4.2K
3	Grok 4.5SpaceXAI	1572Elo	$2.00	$6.00	500K	977
4	Claude Opus 4 8 ThinkingAnthropic	1560Elo	$5.00	$25	1M	6.6K
5	Claude Opus 4 7 ThinkingAnthropic	1557Elo	$5.00	$25	1M	9.8K
6	Claude Opus 4 7Anthropic	1557Elo	$5.00	$25	1M	9.3K
7	Claude Sonnet 5 HighAnthropic	1544Elo	$2.00	$10	1M	2.3K
8	Claude Opus 4.6 ThinkingAnthropic	1544Elo	$5.00	$25	1M	12.2K
9	Seed 2.1 Pro PreviewBytedance	1537Elo	—	—	—	3.3K
10	Claude Opus 4.6Anthropic	1536Elo	$5.00	$25	1M	13.4K
11	Claude Opus 4 8Anthropic	1535Elo	$5.00	$25	1M	5.3K
12	Glm 5.1Z.AI	1527Elo	$1.40	$4.40	203K	5.3K
13	Claude Sonnet 4.6Anthropic	1521Elo	$3.00	$15	1M	15.6K
14	Qwen3.7 Max 20260517Alibaba	1521Elo	$1.25	$3.75	1M	5.8K
15	Kimi K2.6Moonshot AI	1514Elo	$0.95	$4.00	262K	8.8K
16	gpt-5.5-xhigh (codex-harness)OpenAI	1502Elo	—	—	—	8.5K
17	Gemini 3.5 Flash MediumGoogle	1501Elo	$1.50	$9.00	1M	5.0K
18	Minimax M3MiniMax	1496Elo	$0.60	$2.40	—	5.6K
19	Claude Opus 4.5 ThinkingAnthropic	1490Elo	$5.00	$25	200K	13.1K
20	gpt-5.5-high (codex-harness)OpenAI	1481Elo	—	—	—	10.4K
21	Qwen3.6 Max PreviewAlibaba	1480Elo	$1.04	$6.24	262K	2.5K
22	Mimo v2.5 ProXiaomi	1473Elo	$0.43	$0.87	1M	8.8K
23	Kimi K2.7 CodeMoonshot AI	1469Elo	$0.72	$3.49	262K	4.0K
24	Claude Opus 4.5Anthropic	1466Elo	$5.00	$25	200K	15.3K
25	Qwen3.6 PlusAlibaba	1459Elo	$0.33	$1.95	1M	11.3K
26	gpt-5.4-high (codex-harness)OpenAI	1457Elo	$2.50	$15	1M	1.5K
27	Deepseek v4 Pro ThinkingDeepSeek	1457Elo	$0.43	$0.87	1M	8.3K
28	gpt-5.5 (codex-harness)OpenAI	1450Elo	—	—	—	8.6K
29	Deepseek v4 ProDeepSeek	1446Elo	$0.43	$0.87	1M	9.0K
30	Gemini 3.1 ProGoogle	1444Elo	$2.00	$12	1M	16.6K
31	GLM-4.7Z.AI	1440Elo	$0.40	$1.75	203K	4.9K
32	Gemini 3 ProGoogle	1439Elo	$2.00	$12	1M	17.2K
33	gpt-5.4-medium (codex-harness)OpenAI	1437Elo	$2.50	$15	1M	1.4K
34	Gemini 3 FlashGoogle	1437Elo	$0.50	$3.00	1M	13.3K
35	Kimi K2.5 ThinkingMoonshot AI	1432Elo	$0.60	$3.00	—	14.6K
36	MiMo V2 ProXiaomi	1431Elo	$1.00	$3.00	1M	6.9K
37	GLM-5Z.AI	1430Elo	$1.00	$3.20	203K	7.4K
38	Mimo v2.5Xiaomi	1429Elo	$0.10	$0.28	1M	8.0K
39	Kimi K2.5 InstantMoonshot AI	1408Elo	$0.38	$2.02	262K	3.6K
40	gpt-5.3-codex (codex-harness)OpenAI	1407Elo	$1.75	$14	400K	3.0K
41	GPT-5.2OpenAI	1405Elo	$1.75	$14	400K	1.5K
42	Glm 5v TurboZ.AI	1403Elo	$1.20	$4.00	203K	464
43	GPT-5.4 MiniOpenAI	1397Elo	$0.75	$4.50	400K	9.5K
44	Qwen 3.5 397BAlibaba	1396Elo	$0.39	$2.45	256K	14.0K
45	MiniMax M2.7MiniMax	1395Elo	$0.24	$0.96	205K	10.0K
46	GPT-5 MediumOpenAI	1394Elo	$1.25	$10	400K	3.8K
47	Gpt 5.4OpenAI	1392Elo	$2.50	$15	1M	822
48	MiniMax M2.1MiniMax	1392Elo	$0.30	$1.20	205K	9.3K
49	GPT-5.1 MediumOpenAI	1391Elo	$1.25	$10	400K	6.1K
50	Claude Sonnet 4.5 ThinkingAnthropic	1388Elo	$3.00	$15	200K	15.7K
51	gemini-3-flash (thinking-minimal)Google	1387Elo	$0.50	$3.00	1M	20.8K
52	Claude Sonnet 4.5Anthropic	1386Elo	$3.00	$15	200K	18.4K
53	Claude Opus 4.1Anthropic	1386Elo	$15	$75	200K	8.6K
54	Grok 4.20 ReasoningSpaceXAI	1383Elo	$2.00	$6.00	2M	12.5K
55	MiniMax M2.5MiniMax	1382Elo	$0.15	$0.90	205K	7.9K
56	gpt-5.3-codex (codex-harness)OpenAI	1371Elo	$1.75	$14	400K	3.6K
57	Gemma 4 31bGoogle	1370Elo	$0.14	$0.40	262K	6.0K
58	DeepSeek V3.2 ThinkingDeepSeek	1368Elo	$0.21	$0.32	131K	7.9K
59	Qwen 3.5 122BAlibaba	1364Elo	$0.26	$2.08	262K	8.2K
60	Grok 4.3SpaceXAI	1362Elo	$1.25	$2.50	1M	7.8K
61	Hunyuan Hy3 PreviewTencent	1361Elo	—	—	—	1.4K
62	Gemma 4 26b A4bGoogle	1361Elo	—	—	—	1.5K
63	Qwen 3.5 27BAlibaba	1356Elo	$0.20	$1.56	262K	7.7K
64	GLM-4.6Z.AI	1355Elo	$0.43	$1.74	203K	8.3K
65	Laguna M.1Poolside	1354Elo	$0.20	$0.40	262K	3.3K
66	GPT-5.1OpenAI	1339Elo	$1.25	$10	400K	12.9K
67	mimo-v2-flash (non-thinking)Xiaomi	1337Elo	$0.10	$0.30	262K	6.7K
68	GPT-5.2 CodexOpenAI	1334Elo	$1.75	$14	400K	7.8K
69	DeepSeek V3.2DeepSeek	1332Elo	$0.21	$0.32	131K	10.5K
70	Gpt 5.1 CodexOpenAI	1330Elo	$1.25	$10	400K	6.2K
71	Kimi K2 TurboMoonshot AI	1330Elo	$1.15	$8.00	262K	15.4K
72	Claude Haiku 4.5Anthropic	1327Elo	$1.00	$5.00	200K	25.3K
73	MiniMax M2MiniMax	1305Elo	$0.26	$1.02	205K	8.4K
74	Laguna Xs.2Poolside	1303Elo	$0.10	$0.20	262K	3.9K
75	mimo-v2-flash (thinking)Xiaomi	1301Elo	$0.10	$0.30	262K	2.1K
76	Deepseek v3.2 ExpDeepSeek	1288Elo	$0.27	$0.41	164K	4.9K
77	Qwen 3 CoderAlibaba	1281Elo	$0.40	$1.60	262K	15.2K
78	Mistral Medium 3.5Mistral	1268Elo	$1.50	$7.50	262K	2.2K
79	KAT Coder Pro v1Kwai	1259Elo	$0.21	$0.83	256K	1.9K
80	Gemini 3.1 Flash LiteGoogle	1253Elo	$0.25	$1.50	1M	13.6K
81	Qwen3.5 35b A3bAlibaba	1250Elo	$0.14	$1.00	262K	1.8K
82	Trinity Large ThinkingArcee AI	1243Elo	$0.25	$0.80	262K	1.3K
83	Gpt 5.1 Codex MiniOpenAI	1240Elo	$0.25	$2.00	400K	1.4K
84	Qwen3.5 FlashAlibaba	1237Elo	—	—	—	1.6K
85	Grok 4.1 FastSpaceXAI	1234Elo	$0.20	$0.50	2M	6.9K
86	Mistral Large 3Mistral	1224Elo	$0.50	$1.50	—	1.0K
87	Grok 4.1 ThinkingSpaceXAI	1209Elo	—	—	—	1.2K
88	Gemini 2.5 ProGoogle	1204Elo	$1.25	$10	1M	3.3K
89	Devstral 2Mistral	1200Elo	—	—	—	1.6K
90	Granite 4.1 8bIBM	1200Elo	$0.05	$0.10	131K	1.8K
91	Mercury 2Inception AI	1164Elo	$0.25	$0.75	128K	947
92	Grok 4 Fast ReasoningSpaceXAI	1151Elo	$0.20	$0.50	2M	935
93	Grok Code Fast 1SpaceXAI	1140Elo	$0.20	$1.50	—	982
94	Devstral Medium 2507Mistral	1092Elo	$0.40	$2.00	128K	992

LiveBench Coding

View original source →

#	Model	Score	Input $/M	Output $/M	Context	CI
1	GPT-5.2 CodexOpenAI	83.6%	—	—	—	—
2	GPT-5.5 Thinking xHigh EffortOpenAI	82.5%	—	—	—	—
3	Claude 4.7 Opus Thinking xHigh EffortAnthropic	82.1%	—	—	—	—
4	Claude 4 SonnetAnthropic	80.7%	—	—	—	—
5	GPT-5.1 Codex Max HighOpenAI	80.7%	—	—	—	—
6	Claude Sonnet 4.5 ThinkingAnthropic	80.4%	—	—	—	—
7	GLM 5.2Z.AI	79.7%	—	—	—	—
8	Claude 4.5 Opus Thinking High EffortAnthropic	79.7%	—	—	—	—
9	Claude 4.8 Opus Thinking xHigh EffortAnthropic	79.3%	—	—	—	—
10	Claude 4.6 Sonnet Thinking Medium EffortAnthropic	79.3%	—	—	—	—
11	GPT-5.3 InstantOpenAI	78.6%	—	—	—	—
12	Claude Fable 5 Thinking xHigh Effort*losing out due to stricter content moderationAnthropic	78.6%	—	—	—	—
13	Claude Sonnet 5 xHigh EffortAnthropic	78.6%	—	—	—	—
14	Kimi K2.6 ThinkingMoonshot AI	78.6%	—	—	—	—
15	Claude 4.5 Opus Medium EffortAnthropic	78.5%	—	—	—	—
16	Claude 4.6 Opus Thinking High EffortAnthropic	78.2%	—	—	—	—
17	Gemini 3.5 Flash HighGoogle	78.2%	—	—	—	—
18	GPT-5.3 Codex HighOpenAI	78.2%	—	—	—	—
19	Qwen 3.6 PlusAlibaba	78.2%	—	—	—	—
20	Kimi K2.5 ThinkingMoonshot AI	77.9%	—	—	—	—
21	GPT-5.4 Thinking xHigh EffortOpenAI	77.5%	—	—	—	—
22	Claude 4 Sonnet ThinkingAnthropic	77.5%	—	—	—	—
23	GPT-5.1 No ThinkingOpenAI	77.5%	—	—	—	—
24	Gemini 3.1 Pro Preview HighGoogle	76.5%	—	—	—	—
25	GPT-5.2 No ThinkingOpenAI	76.5%	—	—	—	—
26	GPT-5.2 HighOpenAI	76.1%	—	—	—	—
27	Claude 4.1 OpusAnthropic	76.1%	—	—	—	—
28	Claude Sonnet 4.5Anthropic	76.1%	—	—	—	—
29	Gemini 2.5 Pro (Max Thinking)Google	75.7%	—	—	—	—
30	DeepSeek V3.2DeepSeek	75.7%	—	—	—	—
31	GLM 5.1Z.AI	75.4%	—	—	—	—
32	Claude 4.1 Opus ThinkingAnthropic	74.7%	—	—	—	—
33	Gemini 3 Pro Preview HighGoogle	74.6%	—	—	—	—
34	Kimi K2 InstructMoonshot AI	74.3%	—	—	—	—
35	Qwen 3.7 MaxAlibaba	74.2%	—	—	—	—
36	Kimi K2.7 CodeMoonshot AI	74.0%	—	—	—	—
37	Gemini 3 Flash Preview HighGoogle	73.9%	—	—	—	—
38	GLM 5V TurboZ.AI	73.9%	—	—	—	—
39	GLM 5Z.AI	73.6%	—	—	—	—
40	DeepSeek V3.2 ExpDeepSeek	73.2%	—	—	—	—
41	Grok 4xAI	73.1%	—	—	—	—
42	GLM 4.7Z.AI	73.1%	—	—	—	—
43	Claude Haiku 4.5 ThinkingAnthropic	72.8%	—	—	—	—
44	GPT-5.1 HighOpenAI	72.5%	—	—	—	—
45	Claude Haiku 4.5Anthropic	72.2%	—	—	—	—
46	GPT-5.4 Nano xHighOpenAI	72.1%	—	—	—	—
47	GPT-5 ProOpenAI	72.1%	—	—	—	—
48	GPT-5.1 CodexOpenAI	71.8%	—	—	—	—
49	Qwen 3.6 27BAlibaba	71.8%	—	—	—	—
50	GPT-5.4 Mini xHighOpenAI	71.6%	—	—	—	—
51	Nemotron 3 Ultra 550B A55BNVIDIA	71.3%	—	—	—	—
52	GLM 4.6Z.AI	71.0%	—	—	—	—
53	Minimax M2.5MiniMax	70.7%	—	—	—	—
54	DeepSeek V3.2 Exp ThinkingDeepSeek	70.1%	—	—	—	—
55	DeepSeek V4 ProDeepSeek	70.0%	—	—	—	—
56	Grok 4.3xAI	69.9%	—	—	—	—
57	GPT-5.1 Codex MiniOpenAI	69.9%	—	—	—	—
58	Grok 4.1 FastxAI	69.6%	—	—	—	—
59	Qwen 3 235B A22B Instruct 2507Alibaba	69.6%	—	—	—	—
60	DeepSeek V4 FlashDeepSeek	69.2%	—	—	—	—
61	Qwen 3 235B A22B Thinking 2507Alibaba	69.0%	—	—	—	—
62	MiMo V2 ProXiaomi	68.8%	—	—	—	—
63	Gemini 3.1 Flash Lite Preview HighGoogle	68.5%	—	—	—	—
64	Minimax M3MiniMax	68.2%	—	—	—	—
65	GPT-5 Mini HighOpenAI	68.2%	—	—	—	—
66	Qwen 3 Next 80B A3B InstructAlibaba	68.2%	—	—	—	—
67	Gemini 2.5 Flash (Max Thinking) (2025-09-25)Google	67.5%	—	—	—	—
68	Kimi K2 ThinkingMoonshot AI	67.4%	—	—	—	—
69	Devstral 2Mistral	66.8%	—	—	—	—
70	Gemini 2.5 Flash Lite (Max Thinking) (2025-06-17)Google	66.4%	—	—	—	—
71	Grok 4.20 BetaxAI	66.1%	—	—	—	—
72	Gemini 2.5 Flash (Max Thinking) (2025-06-05)Google	66.0%	—	—	—	—
73	Qwen 3 32BAlibaba	66.0%	—	—	—	—
74	Trinity Large PreviewArcee AI	65.7%	—	—	—	—
75	Grok Build 0.1xAI	65.4%	—	—	—	—
76	Gemini 2.5 Flash Lite (Max Thinking) (2025-09-25)Google	65.4%	—	—	—	—
77	Qwen 3.6 FlashAlibaba	64.9%	—	—	—	—
78	DeepSeek V3.2 ThinkingDeepSeek	64.6%	—	—	—	—
79	Grok Code FastxAI	64.4%	—	—	—	—
80	GLM 4.6VZ.AI	64.2%	—	—	—	—
81	GPT-5 Nano HighOpenAI	62.4%	—	—	—	—
82	Qwen 3 Next 80B A3B ThinkingAlibaba	60.7%	—	—	—	—
83	Gemma 4 31BGoogle	60.3%	—	—	—	—
84	GPT OSS 120bOpenAI	60.2%	—	—	—	—
85	Grok 4.20 Beta (Non-Reasoning)xAI	58.5%	—	—	—	—
86	Elephant AlphaOpenRouter	56.7%	—	—	—	—
87	Minimax M2.7MiniMax	54.9%	—	—	—	—
88	Grok 4.1 Fast (Non-Reasoning)xAI	54.3%	—	—	—	—
89	Nemotron 3 Super 120B A12BNVIDIA	54.1%	—	—	—	—
90	Qwen 3 30B A3BAlibaba	48.9%	—	—	—	—

/ Live Benchmarks

Need help choosing the right AI model for your business?

Benchmarks are a starting point, not an answer. The right model depends on your workload, budget, and integration constraints — let's figure it out together.

Get in touch →