#1
GPT-5.4
OpenAI
用量
57.3
GPT-5.4是OpenAI最新的前沿模型,它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……
| 排名 | 模型 | 用量 | 基准 | 分数 | 模型标识 | 上下文 | 说明 |
|---|---|---|---|---|---|---|---|
| #1 |
GPT-5.4
OpenAI
|
57.3 | coding | 57.3 | openai/gpt-5.4 | 1.1M | GPT-5.4是OpenAI最新的前沿模型,它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口…… |
| #2 |
Gemini 3.1 Pro Preview
Google
|
55.5 | coding | 55.5 | google/gemini-3.1-pro-preview | 1.0M | Gemini 3.1 Pro Preview是谷歌的前沿推理模型,在软件工程性能上实现显著提升,增强了代理可靠性…… |
| #3 |
GPT-5.3-Codex
OpenAI
|
53.1 | coding | 53.1 | openai/gpt-5.3-codex | 400K | GPT-5.3-Codex是OpenAI最先进的代理式编码模型,它融合了GPT-5.2-Codex的前沿软件工程性能…… |
| #4 |
GPT-5.4 Mini
OpenAI
|
51.5 | coding | 51.5 | openai/gpt-5.4-mini | 400K | GPT-5.4 mini 将 GPT-5.4 的核心能力融入一个更快速、更高效的模型,专为高吞吐量工作负载优化。它支持… |
| #5 |
Claude Sonnet 4.6
Anthropic
|
50.9 | coding | 50.9 | anthropic/claude-sonnet-4.6 | 1.0M | Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型,在编程、智能体应用和专业工作领域均展现出前沿性能。它…… |
| #6 |
GPT-5.2
OpenAI
|
48.7 | coding | 48.7 | openai/gpt-5.2 | 400K | GPT-5.2是GPT-5系列中的最新前沿级模型,相比GPT-5.1,它在代理能力和长上下文处理性能上表现更加强大。 |
| #7 |
Claude Opus 4.6
Anthropic
|
48.1 | coding | 48.1 | anthropic/claude-opus-4.6 | 1.0M | Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。 |
| #8 |
Claude Opus 4.5
Anthropic
|
47.8 | coding | 47.8 | anthropic/claude-opus-4.5 | 200K | Claude Opus 4.5是Anthropic公司推出的前沿推理模型,专为复杂软件工程、智能体工作流和长周期任务优化设计。 |
| #9 |
Gemini 2.5 Pro
Google
|
46.7 | coding | 46.7 | google/gemini-2.5-pro-exp-03-25 | 1.0M | Gemini 2.5 Pro是谷歌推出的尖端人工智能模型,专为高级推理、编程、数学及科学任务而设计。它采用… |
| #10 |
Gemini 3 Pro Preview (high)
Google
|
46.5 | coding | 46.5 | google/gemini-3-pro-preview | - | 编码基准分数。 |
GPT-5.4是OpenAI最新的前沿模型,它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……
Gemini 3.1 Pro Preview是谷歌的前沿推理模型,在软件工程性能上实现显著提升,增强了代理可靠性……
GPT-5.3-Codex是OpenAI最先进的代理式编码模型,它融合了GPT-5.2-Codex的前沿软件工程性能……
GPT-5.4 mini 将 GPT-5.4 的核心能力融入一个更快速、更高效的模型,专为高吞吐量工作负载优化。它支持…
Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型,在编程、智能体应用和专业工作领域均展现出前沿性能。它……
GPT-5.2是GPT-5系列中的最新前沿级模型,相比GPT-5.1,它在代理能力和长上下文处理性能上表现更加强大。
Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。
Claude Opus 4.5是Anthropic公司推出的前沿推理模型,专为复杂软件工程、智能体工作流和长周期任务优化设计。
Gemini 2.5 Pro是谷歌推出的尖端人工智能模型,专为高级推理、编程、数学及科学任务而设计。它采用…
编码基准分数。