LLM / 编程榜

比较模型在编程基准任务上的表现。

更新时间2026年3月26日 15:00

方法已发布基准快照

排名	模型	用量	基准	分数	模型标识	上下文	说明
#1	GPT-5.4 OpenAI	57.3	coding	57.3	openai/gpt-5.4	1.1M	GPT-5.4是OpenAI最新的前沿模型，它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……
#2	Gemini 3.1 Pro Preview Google	55.5	coding	55.5	google/gemini-3.1-pro-preview	1.0M	Gemini 3.1 Pro Preview是谷歌的前沿推理模型，在软件工程性能上实现显著提升，增强了代理可靠性……
#3	GPT-5.3-Codex OpenAI	53.1	coding	53.1	openai/gpt-5.3-codex	400K	GPT-5.3-Codex是OpenAI最先进的代理式编码模型，它融合了GPT-5.2-Codex的前沿软件工程性能……
#4	GPT-5.4 Mini OpenAI	51.5	coding	51.5	openai/gpt-5.4-mini	400K	GPT-5.4 mini 将 GPT-5.4 的核心能力融入一个更快速、更高效的模型，专为高吞吐量工作负载优化。它支持…
#5	Claude Sonnet 4.6 Anthropic	50.9	coding	50.9	anthropic/claude-sonnet-4.6	1.0M	Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型，在编程、智能体应用和专业工作领域均展现出前沿性能。它……
#6	GPT-5.2 OpenAI	48.7	coding	48.7	openai/gpt-5.2	400K	GPT-5.2是GPT-5系列中的最新前沿级模型，相比GPT-5.1，它在代理能力和长上下文处理性能上表现更加强大。
#7	Claude Opus 4.6 Anthropic	48.1	coding	48.1	anthropic/claude-opus-4.6	1.0M	Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。
#8	Claude Opus 4.5 Anthropic	47.8	coding	47.8	anthropic/claude-opus-4.5	200K	Claude Opus 4.5是Anthropic公司推出的前沿推理模型，专为复杂软件工程、智能体工作流和长周期任务优化设计。
#9	Gemini 2.5 Pro Google	46.7	coding	46.7	google/gemini-2.5-pro-exp-03-25	1.0M	Gemini 2.5 Pro是谷歌推出的尖端人工智能模型，专为高级推理、编程、数学及科学任务而设计。它采用…
#10	Gemini 3 Pro Preview (high) Google	46.5	coding	46.5	google/gemini-3-pro-preview	-	编码基准分数。

GPT-5.4 OpenAI

用量 57.3

基准 coding · 上下文 1.1M

GPT-5.4是OpenAI最新的前沿模型，它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……

Gemini 3.1 Pro Preview Google

用量 55.5

基准 coding · 上下文 1.0M

Gemini 3.1 Pro Preview是谷歌的前沿推理模型，在软件工程性能上实现显著提升，增强了代理可靠性……

GPT-5.3-Codex OpenAI

用量 53.1

基准 coding · 上下文 400K

GPT-5.3-Codex是OpenAI最先进的代理式编码模型，它融合了GPT-5.2-Codex的前沿软件工程性能……

GPT-5.4 Mini OpenAI

用量 51.5

基准 coding · 上下文 400K

GPT-5.4 mini 将 GPT-5.4 的核心能力融入一个更快速、更高效的模型，专为高吞吐量工作负载优化。它支持…

Claude Sonnet 4.6 Anthropic

用量 50.9

基准 coding · 上下文 1.0M

Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型，在编程、智能体应用和专业工作领域均展现出前沿性能。它……

GPT-5.2 OpenAI

用量 48.7

基准 coding · 上下文 400K

GPT-5.2是GPT-5系列中的最新前沿级模型，相比GPT-5.1，它在代理能力和长上下文处理性能上表现更加强大。

Claude Opus 4.6 Anthropic

用量 48.1

基准 coding · 上下文 1.0M

Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。

Claude Opus 4.5 Anthropic

用量 47.8

基准 coding · 上下文 200K

Claude Opus 4.5是Anthropic公司推出的前沿推理模型，专为复杂软件工程、智能体工作流和长周期任务优化设计。

Gemini 2.5 Pro Google

用量 46.7

基准 coding · 上下文 1.0M

Gemini 2.5 Pro是谷歌推出的尖端人工智能模型，专为高级推理、编程、数学及科学任务而设计。它采用…

#10

Gemini 3 Pro Preview (high) Google

用量 46.5

基准 coding · 上下文 -

编码基准分数。