LLM Leaderboard

Compare how different large language models perform at writing Clerk code and select the one that best fits your requirements.

Model / Average	Organizations	Billing	Webhooks	Add Auth	Auth	Quickstarts	UI Components	Upgrades	User Management
1 Claude Opus 4.8 91%	91%	93%	91%	91%	85%	90%	81%	100%	100%
2 GPT-5.6 Luna 84%	79%	92%	88%	100%	74%	86%	69%	73%	92%
3 GPT-5.6 Sol 81%	88%	94%	84%	100%	74%	86%	73%	33%	92%
4 GPT-5.6 Terra 79%	91%	92%	88%	73%	80%	88%	71%	40%	92%
5 GPT-5.5 78%	95%	94%	88%	18%	74%	90%	71%	80%	92%
6 GPT-5.4 74%	77%	89%	87%	27%	69%	73%	69%	80%	92%
7 v0-1.5-md 71%	91%	62%	75%	—	60%	76%	86%	—	50%
8 Gemini 3.5 Flash 69%	75%	76%	65%	0%	79%	90%	71%	73%	92%
9 Claude Opus 4.6 68%	68%	63%	91%	—	49%	93%	68%	—	42%
10 GPT-5.2 67%	77%	67%	87%	—	54%	91%	66%	—	25%
11 Claude Opus 4.5 66%	75%	60%	87%	—	54%	93%	71%	—	25%
12 GPT-5 66%	67%	68%	87%	—	37%	91%	62%	—	50%
13 Gemini 3 Pro Preview 64%	54%	62%	68%	—	54%	91%	78%	—	42%
14 Claude Sonnet 4.5 64%	48%	63%	74%	—	43%	83%	86%	—	50%
15 Claude Sonnet 4 63%	53%	60%	72%	—	49%	91%	86%	—	33%
16 GPT-5 Chat 63%	69%	66%	81%	—	38%	89%	66%	—	33%
17 v0-1.5-lg 62%	49%	60%	59%	—	59%	67%	74%	—	67%
18 Claude Opus 4 60%	40%	60%	78%	—	38%	91%	81%	—	33%
19 GPT-5.2 Codex 59%	74%	63%	78%	—	38%	54%	64%	—	42%
20 Claude Haiku 4.5 58%	62%	66%	68%	—	44%	71%	71%	—	25%
21 GPT-4o 39%	58%	0%	60%	—	16%	91%	34%	—	17%
22 Gemini 2.5 Flash 24%	0%	0%	0%	—	0%	91%	79%	—	0%

Last updated: July 14, 2026

Trusted by fast-growing companies around the world.