返回

LLM / 智能体榜

比较模型在智能体基准任务上的表现。

更新时间2026年3月26日 15:00
方法已发布基准快照
排名 模型 用量 基准分数模型标识上下文 说明
#1
GPT-5.4 OpenAI
69.4 agentic69.4openai/gpt-5.41.1M GPT-5.4是OpenAI最新的前沿模型,它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……
#2
Claude Opus 4.6 Anthropic
67.6 agentic67.6anthropic/claude-opus-4.61.0M Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。
#3 66.1 agentic66.1z-ai/glm-5-turbo203K GLM-5 Turbo是Z.ai推出的新模型,专为快速推理和在OpenClaw等智能体驱动环境中实现强劲性能而设计…
#4
GLM 5 Z.ai
63.1 agentic63.1z-ai/glm-580K GLM-5是Z.ai推出的旗舰开源基础模型,专为复杂系统设计与长周期智能体工作流而打造。
#5
Claude Sonnet 4.6 Anthropic
63 agentic63anthropic/claude-sonnet-4.61.0M Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型,在编程、智能体应用和专业工作领域均展现出前沿性能。它……
#6
MiMo-V2-Pro Xiaomi
62.8 agentic62.8xiaomi/mimo-v2-pro1.0M MiMo-V2-Pro是小米的旗舰基础模型,拥有超过1万亿总参数和100万上下文长度,专为智能体场景深度优化……
#7
GPT-5.3-Codex OpenAI
62.2 agentic62.2openai/gpt-5.3-codex400K GPT-5.3-Codex是OpenAI最先进的代理式编码模型,它融合了GPT-5.2-Codex的前沿软件工程性能……
#8
MiniMax M2.7 MiniMax
61.5 agentic61.5minimax/minimax-m2.7205K MiniMax-M2.7是新一代大型语言模型,专为自主、现实世界生产力及持续改进而设计。构建……
#9
GPT-5.2 OpenAI
60.2 agentic60.2openai/gpt-5.2400K GPT-5.2是GPT-5系列中的最新前沿级模型,相比GPT-5.1,它在代理能力和长上下文处理性能上表现更加强大。
#10
Claude Opus 4.5 Anthropic
59.6 agentic59.6anthropic/claude-opus-4.5200K Claude Opus 4.5是Anthropic公司推出的前沿推理模型,专为复杂软件工程、智能体工作流和长周期任务优化设计。
#1
GPT-5.4 OpenAI
用量 69.4
基准 agentic · 上下文 1.1M

GPT-5.4是OpenAI最新的前沿模型,它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……

#2
Claude Opus 4.6 Anthropic
用量 67.6
基准 agentic · 上下文 1.0M

Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。

#3
用量 66.1
基准 agentic · 上下文 203K

GLM-5 Turbo是Z.ai推出的新模型,专为快速推理和在OpenClaw等智能体驱动环境中实现强劲性能而设计…

#4
GLM 5 Z.ai
用量 63.1
基准 agentic · 上下文 80K

GLM-5是Z.ai推出的旗舰开源基础模型,专为复杂系统设计与长周期智能体工作流而打造。

#5
Claude Sonnet 4.6 Anthropic
用量 63
基准 agentic · 上下文 1.0M

Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型,在编程、智能体应用和专业工作领域均展现出前沿性能。它……

#6
MiMo-V2-Pro Xiaomi
用量 62.8
基准 agentic · 上下文 1.0M

MiMo-V2-Pro是小米的旗舰基础模型,拥有超过1万亿总参数和100万上下文长度,专为智能体场景深度优化……

#7
GPT-5.3-Codex OpenAI
用量 62.2
基准 agentic · 上下文 400K

GPT-5.3-Codex是OpenAI最先进的代理式编码模型,它融合了GPT-5.2-Codex的前沿软件工程性能……

#8
MiniMax M2.7 MiniMax
用量 61.5
基准 agentic · 上下文 205K

MiniMax-M2.7是新一代大型语言模型,专为自主、现实世界生产力及持续改进而设计。构建……

#9
GPT-5.2 OpenAI
用量 60.2
基准 agentic · 上下文 400K

GPT-5.2是GPT-5系列中的最新前沿级模型,相比GPT-5.1,它在代理能力和长上下文处理性能上表现更加强大。

#10
Claude Opus 4.5 Anthropic
用量 59.6
基准 agentic · 上下文 200K

Claude Opus 4.5是Anthropic公司推出的前沿推理模型,专为复杂软件工程、智能体工作流和长周期任务优化设计。