面向 CEX 与 Web3 的 AI Agent 通用评测体系 66 道真实任务,6 大核心维度,可复现的评分框架
覆盖 Crypto 用户全链路 — 从 CEX 基础操作到复杂链上调查,全部基于真实场景构建。
现货下单、合约开平仓、理财查询、网格策略、账户划转与组合分析。
链上 Swap、跨链桥比价、滑点控制、多步路由优化与合约风险评估。
多链转账、Gas 预留估算、地址格式校验、错链阻断与条件转账。
实时行情、RSI / K 线技术分析、量价关系判断、多币种对比与波动率比较。
代币经济学分析、叙事周期判断、Rug Pull 检测、竞品对比与研究报告。
地址画像与盈亏分析、巨鲸追踪、Smart Money 信号、协议安全监控。
单步指令,意图明确。如查询余额、查看行情价格、简单下单。
含前置检查或异常分支。如余额不足阻断、参数补全、错链风险识别。
多步骤、多约束,需推理权衡。如跨链最优路径、全额转账保留 Gas。
综合 6 大维度加权得分。所有评审采用双模型共识机制,辅以人工仲裁。
| # | Agent | 类型 | 总分 | CEX | DEX | 钱包 | 市场分析 | 项目研究 | 链上追踪 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | 通用 AI | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(已安装Gate for AI) | 通用 AI | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(已安装Gate for AI) | 通用 AI | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Crypto AI | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(已安装Gate for AI) | 通用 AI | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Crypto AI | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | 通用 AI | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Crypto AI | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | 通用 AI | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent 在本次评测中综合排名第一。作为深度集成于交易所的原生 Agent,它在 CEX 交易、DEX 交易、行情分析三大核心维度上均排名第一。 本次评测共纳入 9 个 Agent,题目横跨 CEX 交易、DEX 交易、钱包操作、行情分析、链上调查、项目研究 6 大场景,由双模型共识机制评分并辅以人工复核。Gate AI Agent 在这套标准下的表现,是对其 Web3 原生能力的一次完整验证。
每道题按 2-3 个评分维度独立打分,采用双模型共识审计,所有基准与权重完全公开。
Agent 是否正确理解用户意图?金额、方向、交易对等参数是否准确解析?是否存在误解(如把 10U 当 10 个 SOL)?
Agent 是否给出了正确的结果?API 调用、计算和输出是否准确完整?是否存在编造数据或虚构执行成功?
Agent 是否能识别错链转账、Gas 不足、Rug 代币等危险操作?是否在条件不满足时正确阻断而非强行执行?
Agent 在遇到权限不足、余额为零、接口异常等场景时,是否能清晰说明原因并给出下一步指引?
每道题由 GPT-5.4 和 Claude Sonnet 4.6 独立打分,评分基准在测试前固定,不因参评 Agent 身份调整。取平均分,避免单一模型偏差。
每个评分维度配有明确权重(如意图对齐 35%、执行正确性 45%、安全处理 20%),加权汇总为题目总分,再按维度聚合得出 Agent 综合评分。
Gate 平台原生 AI 助手,接入 Gate MCP 与 AI Skills 全部能力
主流 AI 平台的通用 Agent(如 Claude、ChatGPT),安装 Gate MCP 后参测
行业内其他面向 Crypto 场景的专用 AI Agent
点击任意题目展开查看各 Agent 得分与评分维度。