返回

LLM / 编程榜

比较模型在编程基准任务上的表现。

更新时间2026年3月26日 15:00
方法已发布基准快照
排名 模型 用量 基准分数模型标识上下文 说明
#1
GPT-5.4 OpenAI
57.3 coding57.3openai/gpt-5.41.1M GPT-5.4是OpenAI最新的前沿模型,它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……
#2 55.5 coding55.5google/gemini-3.1-pro-preview1.0M Gemini 3.1 Pro Preview是谷歌的前沿推理模型,在软件工程性能上实现显著提升,增强了代理可靠性……
#3
GPT-5.3-Codex OpenAI
53.1 coding53.1openai/gpt-5.3-codex400K GPT-5.3-Codex是OpenAI最先进的代理式编码模型,它融合了GPT-5.2-Codex的前沿软件工程性能……
#4
GPT-5.4 Mini OpenAI
51.5 coding51.5openai/gpt-5.4-mini400K GPT-5.4 mini 将 GPT-5.4 的核心能力融入一个更快速、更高效的模型,专为高吞吐量工作负载优化。它支持…
#5
Claude Sonnet 4.6 Anthropic
50.9 coding50.9anthropic/claude-sonnet-4.61.0M Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型,在编程、智能体应用和专业工作领域均展现出前沿性能。它……
#6
GPT-5.2 OpenAI
48.7 coding48.7openai/gpt-5.2400K GPT-5.2是GPT-5系列中的最新前沿级模型,相比GPT-5.1,它在代理能力和长上下文处理性能上表现更加强大。
#7
Claude Opus 4.6 Anthropic
48.1 coding48.1anthropic/claude-opus-4.61.0M Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。
#8
Claude Opus 4.5 Anthropic
47.8 coding47.8anthropic/claude-opus-4.5200K Claude Opus 4.5是Anthropic公司推出的前沿推理模型,专为复杂软件工程、智能体工作流和长周期任务优化设计。
#9 46.7 coding46.7google/gemini-2.5-pro-exp-03-251.0M Gemini 2.5 Pro是谷歌推出的尖端人工智能模型,专为高级推理、编程、数学及科学任务而设计。它采用…
#10 46.5 coding46.5google/gemini-3-pro-preview- 编码基准分数。
#1
GPT-5.4 OpenAI
用量 57.3
基准 coding · 上下文 1.1M

GPT-5.4是OpenAI最新的前沿模型,它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……

用量 55.5
基准 coding · 上下文 1.0M

Gemini 3.1 Pro Preview是谷歌的前沿推理模型,在软件工程性能上实现显著提升,增强了代理可靠性……

#3
GPT-5.3-Codex OpenAI
用量 53.1
基准 coding · 上下文 400K

GPT-5.3-Codex是OpenAI最先进的代理式编码模型,它融合了GPT-5.2-Codex的前沿软件工程性能……

#4
GPT-5.4 Mini OpenAI
用量 51.5
基准 coding · 上下文 400K

GPT-5.4 mini 将 GPT-5.4 的核心能力融入一个更快速、更高效的模型,专为高吞吐量工作负载优化。它支持…

#5
Claude Sonnet 4.6 Anthropic
用量 50.9
基准 coding · 上下文 1.0M

Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型,在编程、智能体应用和专业工作领域均展现出前沿性能。它……

#6
GPT-5.2 OpenAI
用量 48.7
基准 coding · 上下文 400K

GPT-5.2是GPT-5系列中的最新前沿级模型,相比GPT-5.1,它在代理能力和长上下文处理性能上表现更加强大。

#7
Claude Opus 4.6 Anthropic
用量 48.1
基准 coding · 上下文 1.0M

Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。

#8
Claude Opus 4.5 Anthropic
用量 47.8
基准 coding · 上下文 200K

Claude Opus 4.5是Anthropic公司推出的前沿推理模型,专为复杂软件工程、智能体工作流和长周期任务优化设计。

#9
用量 46.7
基准 coding · 上下文 1.0M

Gemini 2.5 Pro是谷歌推出的尖端人工智能模型,专为高级推理、编程、数学及科学任务而设计。它采用…