LLM / 智能体榜

比较模型在智能体基准任务上的表现。

更新时间2026年3月26日 15:00

方法已发布基准快照

排名	模型	用量	基准	分数	模型标识	上下文	说明
#1	GPT-5.4 OpenAI	69.4	agentic	69.4	openai/gpt-5.4	1.1M	GPT-5.4是OpenAI最新的前沿模型，它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……
#2	Claude Opus 4.6 Anthropic	67.6	agentic	67.6	anthropic/claude-opus-4.6	1.0M	Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。
#3	GLM 5 Turbo Z.ai	66.1	agentic	66.1	z-ai/glm-5-turbo	203K	GLM-5 Turbo是Z.ai推出的新模型，专为快速推理和在OpenClaw等智能体驱动环境中实现强劲性能而设计…
#4	GLM 5 Z.ai	63.1	agentic	63.1	z-ai/glm-5	80K	GLM-5是Z.ai推出的旗舰开源基础模型，专为复杂系统设计与长周期智能体工作流而打造。
#5	Claude Sonnet 4.6 Anthropic	63	agentic	63	anthropic/claude-sonnet-4.6	1.0M	Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型，在编程、智能体应用和专业工作领域均展现出前沿性能。它……
#6	MiMo-V2-Pro Xiaomi	62.8	agentic	62.8	xiaomi/mimo-v2-pro	1.0M	MiMo-V2-Pro是小米的旗舰基础模型，拥有超过1万亿总参数和100万上下文长度，专为智能体场景深度优化……
#7	GPT-5.3-Codex OpenAI	62.2	agentic	62.2	openai/gpt-5.3-codex	400K	GPT-5.3-Codex是OpenAI最先进的代理式编码模型，它融合了GPT-5.2-Codex的前沿软件工程性能……
#8	MiniMax M2.7 MiniMax	61.5	agentic	61.5	minimax/minimax-m2.7	205K	MiniMax-M2.7是新一代大型语言模型，专为自主、现实世界生产力及持续改进而设计。构建……
#9	GPT-5.2 OpenAI	60.2	agentic	60.2	openai/gpt-5.2	400K	GPT-5.2是GPT-5系列中的最新前沿级模型，相比GPT-5.1，它在代理能力和长上下文处理性能上表现更加强大。
#10	Claude Opus 4.5 Anthropic	59.6	agentic	59.6	anthropic/claude-opus-4.5	200K	Claude Opus 4.5是Anthropic公司推出的前沿推理模型，专为复杂软件工程、智能体工作流和长周期任务优化设计。

GPT-5.4 OpenAI

用量 69.4

基准 agentic · 上下文 1.1M

GPT-5.4是OpenAI最新的前沿模型，它将Codex和GPT系列统一整合为一个单一系统。该模型具备超过100万令牌的上下文窗口……

Claude Opus 4.6 Anthropic

用量 67.6

基准 agentic · 上下文 1.0M

Opus 4.6是Anthropic针对编程和长时间专业任务推出的最强模型。它专为能在整个...范围内运行的智能体而构建。

GLM 5 Turbo Z.ai

用量 66.1

基准 agentic · 上下文 203K

GLM-5 Turbo是Z.ai推出的新模型，专为快速推理和在OpenClaw等智能体驱动环境中实现强劲性能而设计…

GLM 5 Z.ai

用量 63.1

基准 agentic · 上下文 80K

GLM-5是Z.ai推出的旗舰开源基础模型，专为复杂系统设计与长周期智能体工作流而打造。

Claude Sonnet 4.6 Anthropic

用量 63

基准 agentic · 上下文 1.0M

Sonnet 4.6是Anthropic迄今为止最强大的Sonnet系列模型，在编程、智能体应用和专业工作领域均展现出前沿性能。它……

MiMo-V2-Pro Xiaomi

用量 62.8

基准 agentic · 上下文 1.0M

MiMo-V2-Pro是小米的旗舰基础模型，拥有超过1万亿总参数和100万上下文长度，专为智能体场景深度优化……

GPT-5.3-Codex OpenAI

用量 62.2

基准 agentic · 上下文 400K

GPT-5.3-Codex是OpenAI最先进的代理式编码模型，它融合了GPT-5.2-Codex的前沿软件工程性能……

MiniMax M2.7 MiniMax

用量 61.5

基准 agentic · 上下文 205K

MiniMax-M2.7是新一代大型语言模型，专为自主、现实世界生产力及持续改进而设计。构建……

GPT-5.2 OpenAI

用量 60.2

基准 agentic · 上下文 400K

GPT-5.2是GPT-5系列中的最新前沿级模型，相比GPT-5.1，它在代理能力和长上下文处理性能上表现更加强大。

#10

Claude Opus 4.5 Anthropic

用量 59.6

基准 agentic · 上下文 200K

Claude Opus 4.5是Anthropic公司推出的前沿推理模型，专为复杂软件工程、智能体工作流和长周期任务优化设计。