The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
Cobertura total para utilizadores de Crypto — desde operações básicas em CEX até investigações complexas em cadeia, tudo construído com base em cenários reais.
Ordens à vista, abertura e fecho de contratos, consulta de gestão de património, estratégia de grelha, transferência de contas e análise de combinações.
Swap em cadeia, comparação de preços de pontes entre cadeias, controlo de slippage, otimização de roteamento em múltiplos passos e avaliação de risco de contratos.
Transferências multichain, estimativa de reserva de Gas, verificação de formato de endereço, bloqueio de cadeias erradas e transferências condicionais.
Análise técnica em tempo real, RSI / K linha, avaliação da relação entre volume e preço, comparação de múltiplas criptomoedas e comparação de volatilidade.
Análise da economia dos tokens, avaliação do ciclo narrativo, deteção de Rug Pull, comparação de concorrentes e relatório de pesquisa.
Análise de endereços e lucros/perdas, rastreamento de grandes investidores, sinais de Smart Money, monitorização de segurança de protocolos.
Instruções simples, com intenções claras. Como consultar saldo, ver preços de mercado, fazer uma ordem simples.
Inclui verificação prévia ou ramificações de exceção. Como bloqueio por saldo insuficiente, complementação de parâmetros, identificação de riscos de cadeia errada.
Múltiplos passos, múltiplas restrições, requer raciocínio e ponderação. Como o caminho ótimo entre cadeias, a transferência total mantém o Gas.
Pontuação ponderada com base em 6 grandes dimensões. Todas as avaliações utilizam um mecanismo de consenso de dois modelos, complementado por arbitragem humana.
| # | Agente | tipo | Total | CEX | DEX | carteira | Análise de mercado | Pesquisa de projeto | Rastreamento em cadeia |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | Inteligência Artificial Genérica | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI instalado) | Inteligência Artificial Genérica | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI instalado) | Inteligência Artificial Genérica | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Cripto IA | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI instalado) | Inteligência Artificial Genérica | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Cripto IA | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | Inteligência Artificial Genérica | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Cripto IA | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | Inteligência Artificial Genérica | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent obteve a primeira posição na avaliação. Como um agente nativo profundamente integrado na bolsa, ele ocupa o primeiro lugar nas três principais dimensões: negociação CEX, negociação DEX e análise de mercado. Nesta avaliação, foram incluídos 9 agentes, abrangendo 6 cenários: negociação CEX, negociação DEX, operações de carteira, análise de mercado, investigação on-chain e pesquisa de projetos, com pontuação baseada em um mecanismo de consenso de dois modelos, complementado por uma revisão manual. O desempenho do Gate AI Agent sob este conjunto de critérios é uma validação completa de suas capacidades nativas em Web3.
Cada questão é avaliada de forma independente com 2-3 dimensões de avaliação, utilizando uma auditoria de consenso de dois modelos, com todos os benchmarks e pesos completamente públicos.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
Clique em qualquer tópico para expandir e ver as pontuações e dimensões de avaliação de cada Agente.