Model Leaderboard

Compare AI models by capability and cost-effectiveness

Popular Comparisons

Custom Comparison Browse All Models

Programming & Development

37/238 models

LiveCodeBench: Real-world coding tasks

Use Cases: Code completion, debugging, code review, script generation

1GPT-5.186.4

2o4-mini86.1

3GPT-5 Codex85.0

4GLM-4.784.9

5GPT-5.1 CodeX84.5

6GPT-5 Mini83.7

7Gemini 2.5 Pro80.8

8o380.2

9GPT-5 Nano78.3

10DeepSeek R1 (250528)77.5

11Doubao Seed 1.6 (250615)75.8

12o3-mini73.8

13GLM-4.573.4

14Gemini 3.1 Flash-Lite Preview72.0

15GLM-4.5 Air68.6

Logical Reasoning

51/238 models

HLE: Complex reasoning and problem-solving

Use Cases: Complex decision-making, multi-step analysis, logical reasoning

1Claude Opus 4.849.8

2Claude Opus 4.746.9

3Gemini 3.1 Pro Preview44.4

4GPT-5.5 Pro43.1

5GLM-4.742.8

6GPT-5.4 Mini41.5

7GPT-5.541.4

8Gemini 3.5 Flash40.2

9Claude Opus 4.640.0

10GPT-5.4 Nano37.7

11GPT-5.234.5

12Gemini 3 Flash Preview33.7

13Claude Sonnet 4.633.2

14Claude Opus 4.530.8

15GPT-5.126.4

Knowledge Q&A

41/238 models

MMLU Pro: Broad knowledge assessment

Use Cases: Expert Q&A, fact-checking, educational tutoring

1Claude Opus 4.590.8

2GPT-5.289.6

3Gemini 2.5 Pro89.5

4Claude Sonnet 4.589.1

5Gemini 2.5 Flash86.6

6GPT-5.1 CodeX86.0

7GPT-5.186.0

8GPT-5 Codex86.0

9o385.6

10DeepSeek R1 (250528)85.5

11DeepSeek Reasoner85.3

12Doubao Seed 1.6 (250615)84.8

13GPT-5 Mini84.5

14o4-mini84.0

15o183.6

Scientific Research

54/238 models

GPQA: Graduate-level science questions

Use Cases: Academic research, scientific writing, experiment design

1Gemini 3.1 Pro Preview94.3

2Claude Opus 4.794.2

3GPT-5.593.6

4Claude Opus 4.893.6

5GPT-5.292.4

6Claude Opus 4.691.3

7Gemini 3 Flash Preview90.4

8Claude Sonnet 4.689.9

9GPT-5 Pro88.6

10GPT-5.4 Mini88.0

11GPT-5.187.9

12Claude Opus 4.587.0

13Gemini 3.1 Flash-Lite Preview86.9

14Gemini 2.5 Pro86.4

15GPT-5.1 CodeX86.0

Mathematical Computation

33/238 models

AIME: Competition-level math problems

Use Cases: Financial analysis, data computation, statistical reasoning

1GPT-5.2100.0

2GPT-5 Codex99.0

3GPT-5 Pro97.2

4GLM-4.795.7

5Gemini 3 Flash Preview95.2

6GPT-5.1 CodeX95.1

7GPT-5.194.0

8o4-mini91.4

9GPT-5 Mini89.9

10Gemini 2.5 Pro88.0

11o387.6

12o3-mini87.0

13Claude Sonnet 4.587.0

14GPT-5 Nano83.3

15GLM-4.5 Air80.9

AI Agent

34/238 models

Tau2: Autonomous task completion

Use Cases: Automated workflows, multi-tool invocation, complex task decomposition

1Claude Opus 4.691.9

2Claude Sonnet 4.691.7

3Gemini 3.1 Pro Preview90.8

4Gemini 3 Flash Preview90.2

5Claude Opus 4.588.9

6GLM-4.787.4

7Claude Sonnet 4.587.2

8GPT-5 Codex87.0

9GPT-5.1 CodeX82.0

10GPT-5.181.1

11o380.5

12Gemini 2.5 Flash79.5

13Gemini 2.5 Pro77.8

14GLM-4.677.6

15GPT-5 Mini68.1

SciCode

36/238 models

SciCode: Scientific coding challenges

Use Cases: Scientific computing, research code, data analysis scripts

1Gemini 3.1 Pro Preview59.0

2o4-mini46.2

3GPT-5.143.3

4Claude Sonnet 4.543.1

5Gemini 2.5 Pro42.4

6o341.0

7GPT-5 Codex40.8

8DeepSeek R1 (250528)40.8

9GPT-5.1 CodeX40.5

10GPT-4.1 Mini40.1

11o3-mini39.9

12Doubao Seed 1.6 (250615)39.8

13GPT-5 Mini39.1

14GPT-4.138.2

15GPT-537.4

Terminal

44/238 models

Terminal-Bench: Command-line operations

Use Cases: Shell scripting, system administration, DevOps automation

1GPT-5.582.7

2Gemini 3.5 Flash76.2

3Claude Opus 4.874.6

4Claude Opus 4.769.4

5Gemini 3.1 Pro Preview68.5

6Claude Opus 4.665.4

7GPT-5.2-Codex64.0

8GPT-5.262.2

9GPT-5.4 Mini60.0

10Claude Opus 4.559.8

11Claude Sonnet 4.659.1

12GPT-5.1 CodeX Max57.5

13GLM-556.2

14Gemini 3 Flash Preview47.6

15GPT-5.4 Nano46.3

Instruction

28/238 models

IFEval: Instruction following accuracy

Use Cases: Precise task execution, format compliance, constraint adherence

1o3-mini93.4

2DeepSeek Reasoner87.5

3GPT-5 Mini76.1

4GPT-5 Codex74.0

5GPT-5.173.3

6o371.3

7GPT-5.1 CodeX70.0

8o4-mini68.5

9GPT-5 Nano67.6

10Doubao Seed 1.6 (250615)50.8

11Gemini 2.5 Pro48.5

12GPT-545.0

13GLM-4.544.0

14GPT-4.143.0

15Claude Sonnet 4.542.9