Abdeckung der gesamten Nutzerreise im Crypto-Bereich – von grundlegenden CEX-Operationen bis hin zu komplexen Blockchain-Untersuchungen, alles basierend auf realen Szenarien.

10 Aufgaben

CEX

Spot-Order, Vertragsöffnung und -schließung, Vermögensverwaltung Abfrage, Gitterstrategie, Kontotransfer und Portfolioanalyse.

10 Aufgaben

DEX

On-Chain-Swap, Cross-Chain-Brückenpreisvergleich, Slippage-Kontrolle, Multi-Step-Routing-Optimierung und Vertragsrisikobewertung.

10 Aufgaben

Brieftasche

Multichain-Überweisungen, Gas-Reserveschätzung, Adressformatprüfung, falsche Kettenblockierung und bedingte Überweisungen.

12 Aufgaben

Marktanalyse

Echtzeitmarkt, RSI / K-Linien-Technikanalyse, Beurteilung der Preis-Volumen-Beziehung, Vergleich mehrerer Währungen und Volatilitätsvergleich.

12 Aufgaben

Projektforschung

Token-Ökonomikanalyse, Erzählzyklusbewertung, Rug Pull-Erkennung, Wettbewerbsanalyse und Forschungsbericht.

12 Aufgaben

On-Chain-Tracking

Adressabbildung und Gewinn- und Verlustanalyse, Walverfolgung, Smart Money-Signale, Protokollsicherheitsüberwachung.

Grundlegende Operationen

Einzelne Anweisungen, klare Absicht. Zum Beispiel Kontostand abfragen, Marktpreise anzeigen, einfache Bestellungen aufgeben.

Bedingungsoperation

Enthält Vorabprüfungen oder Ausnahmezweige. Zum Beispiel die Blockierung bei unzureichendem Guthaben, die Vervollständigung von Parametern und die Identifizierung von Risiken durch falsche Ketten.

Komplexe Aufgaben

Mehrere Schritte, mehrere Einschränkungen, erfordern Schlussfolgerungen und Abwägungen. Zum Beispiel die optimale Cross-Chain-Route, vollständige Überweisungen unter Beibehaltung von Gas.

März 2026 Ergebnisse

Bewertungs-Rangliste

Insgesamt 6 Dimensionen gewichtet. Alle Bewertungen verwenden einen Dual-Model-Konsensmechanismus, unterstützt durch menschliche Schlichtung.

#	Agent	Typ	Gesamtpunktzahl	CEX	DEX	Brieftasche	Marktanalyse	Projektforschung	On-Chain-Tracking
1	GateAI Agent	Allgemeine KI	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI installiert）	Allgemeine KI	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI installiert）	Allgemeine KI	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Krypto KI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI installiert）	Allgemeine KI	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Krypto KI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	Allgemeine KI	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Krypto KI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	Allgemeine KI	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI installiert）82.8

Codex Agent（Gate for AI installiert）81.2

Gate AI Agent hat in dieser Bewertung den ersten Platz belegt. Als tief in die Börse integrierter nativer Agent belegt er in den drei Kernbereichen CEX-Handel, DEX-Handel und Marktanalyse den ersten Platz. In dieser Bewertung wurden insgesamt 9 Agenten einbezogen, die Themen erstrecken sich über 6 große Szenarien: CEX-Handel, DEX-Handel, Wallet-Operationen, Marktanalyse, On-Chain-Untersuchungen und Projektforschung. Die Bewertung erfolgt durch ein duales Modell-Konsensmechanismus und wird durch eine manuelle Überprüfung ergänzt. Die Leistung des Gate AI Agent unter diesen Standards ist eine vollständige Validierung seiner Web3-nativen Fähigkeiten.

Bewertungssystem

Bewertungsmethodologie

Jede Frage wird unabhängig nach 2-3 Bewertungsdimensionen bewertet, wobei ein Doppelmodell-Konsens-Audit verwendet wird. Alle Benchmarks und Gewichtungen sind vollständig öffentlich.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Risikobewertung und -verhinderung

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Vollständig alle Bewertungsstandards erfüllen

PARTIAL

0.6

Die Richtung ist richtig, aber die Ausführung ist unvollständig.

FAIL

0.0

Fehler, Fälschung oder Sicherheitsrisiken

Doppelmodell-Konsensbewertung

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Gewichtete Gesamtnote

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Bewertung der Agenten-Kategorie

Gate KI-Agent

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Allgemeiner KI-Agent

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Drittanbieter Crypto AI Agent

Industry's other Crypto-specific AI Agents

Vollständigen Fragenkatalog und Bewertungsregeln anzeigen →

Thema Bewertungsdetails

Einzelne Prüfungsdetails

Klicken Sie auf ein beliebiges Thema, um die Punktzahlen und Bewertungsdimensionen der einzelnen Agenten anzuzeigen.

CEX

DEX

Brieftasche

Marktanalyse

Projektforschung

On-Chain-Tracking

cex_001L1Hilf mir zu sehen, wie viel USDT ich noch auf meinem Spot-Konto habe.100▾

Hilf mir zu sehen, wie viel USDT ich noch auf meinem Spot-Konto habe.

GateAI Agent100

Claude Agent（Gate for AI installiert）95

Codex Agent（Gate for AI installiert）82.5

AskSurf Agent36.5

Manus（Gate for AI installiert）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Bewertungskriterien

Kontozweck verstehenWurde korrekt als Abfrage des Spot-Kontostands identifiziert, und nicht als Gesamtvermögen, Vertragsbilanz oder Einzahlung.

SaldoabfragegenauigkeitGibt den verfügbaren USDT-Spot-Saldo zurück, wobei die Werte und Einheiten klar sind und zwischen verfügbar und eingefroren unterschieden wird.

Fehlerbehandlung und ErläuterungWenn Probleme wie nicht angemeldet oder abgelaufene Berechtigungen auftreten, wird dann ein klarer Grund und eine Anleitung für die nächsten Schritte gegeben?

cex_002L1Marktpreis kaufen 10 U von SOL89▾

Marktpreis kaufen 10 U von SOL

GateAI Agent89

Claude Agent（Gate for AI installiert）72.5

Codex Agent（Gate for AI installiert）87.5

AskSurf Agent77.5

Manus（Gate for AI installiert）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Bewertungskriterien

Befehlsanalyse GenauigkeitWurde 10U als USDT-Betrag und nicht als Anzahl von 10 SOL korrekt verstanden?

HandelsausführungsintegritätWerden die Transaktionsergebnisse, Bestätigungsstufen oder eine klare Auftragsstatusbeschreibung zurückgegeben?

Risikoerkennung und -verhinderungWird der Zugriff genau blockiert und der Benutzer über die nächsten Schritte informiert, wenn das Guthaben unzureichend oder die Berechtigungen eingeschränkt sind?

cex_003L1Wie hoch ist die jährliche Rendite von USDT-Anlageprodukten?95▾

Wie hoch ist die jährliche Rendite von USDT-Anlageprodukten?

GateAI Agent95

Claude Agent（Gate for AI installiert）87.5

Codex Agent（Gate for AI installiert）91

AskSurf Agent77.5

Manus（Gate for AI installiert）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Bewertungskriterien

ProduktbereichserkennungFokussiert auf USDT-Anlage-/Verdienstprodukte und nicht auf Handel oder Kreditvergabe.

ErgebnisgültigkeitGibt es mindestens eine Art von gültigem USDT-Anlageprodukt und dessen jährliche Rendite zurück?

Erklärung der Erträge und EinschränkungenWird die dynamische Veränderung der Rendite oder die Qualifikations-/Regionseinschränkungen erläutert?

cex_004L1Hilf mir, einen Verkäufer zu finden, der Alipay unterstützt, um 5000 USDT zu kaufen.100▾

Hilf mir, einen Verkäufer zu finden, der Alipay unterstützt, um 5000 USDT zu kaufen.

GateAI Agent100

Claude Agent（Gate for AI installiert）47.5

Codex Agent（Gate for AI installiert）60

AskSurf Agent77.5

Manus（Gate for AI installiert）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Bewertungskriterien

P2P-SzenenerkennungWurde korrekt als P2P-Fiat-Kauf von Kryptowährungen identifiziert, extrahiere Alipay, 5000 Yuan, USDT drei Parameter.

ÜbereinstimmungsqualitätWird eine Liste von passenden Anzeigen oder umsetzbaren Kaufplänen zurückgegeben?

Blockaden und RisikobeschreibungenWerden klare Gründe und nächste Schritte angegeben, wenn keine Werbung oder unzureichende Qualifikationen vorliegen?

cex_005L2ETH leerverkaufen90▾

ETH leerverkaufen

GateAI Agent90

Claude Agent（Gate for AI installiert）92.5

Codex Agent（Gate for AI installiert）82.5

AskSurf Agent36.5

Manus（Gate for AI installiert）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Bewertungskriterien

Handelsrichtung verstehenRichtig erkennen, dass das Leerverkaufen von ETH ein Kurz für den Handel mit unbefristeten Verträgen ist und nicht den Verkauf von Spot bedeutet.

Parameter Vervollständigung und PlanWird bei fehlenden Parametern aktiv nachgefragt, enthält der endgültige Plan Richtungen/Leverage/Margin?

Die Ausführung des geschlossenen Kreises und der BlockierungKann ein umsetzbarer Plan gegeben werden, wenn alle Parameter vollständig sind, und ist die Blockierung bei zeitlichen Einschränkungen genau?

cex_006L2Hilf mir, die Long-Position in BTC zu schließen.72.5▾

Hilf mir, die Long-Position in BTC zu schließen.

GateAI Agent72.5

Claude Agent（Gate for AI installiert）96

Codex Agent（Gate for AI installiert）95

AskSurf Agent52.5

Manus（Gate for AI installiert）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Bewertungskriterien

SchließungssemantikerkennungWurde korrekt als Long/Verkauf erkannt und nicht als Short eröffnet.

Position Verification and ResultsShould we first check the BTC long position before providing the closing result or the next confirmation?

Risiken und AusnahmebehandlungBei Szenarien wie fehlenden Positionen oder unzureichenden Berechtigungen, wird eine genaue Erklärung gegeben?

cex_007L2Überweisen Sie 10 USDT von Ihrem Spot-Konto auf Ihr Perpetual-Contract-Konto.90▾

Überweisen Sie 10 USDT von Ihrem Spot-Konto auf Ihr Perpetual-Contract-Konto.

GateAI Agent90

Claude Agent（Gate for AI installiert）94

Codex Agent（Gate for AI installiert）92.5

AskSurf Agent71.5

Manus（Gate for AI installiert）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Bewertungskriterien

Übertragungsweg KorrektheitWurde korrekt als interner Transfer erkannt, Richtung von Spotkonto zu Perpetual-Contract-Konto

Ausführung oder Blockierung des ErgebnissesStatusbeschreibung bei erfolgreichem Transfer, ob die Blockierung bei unzureichendem Guthaben genau ist.

InformationsklarheitWurde die Kontorichtung, der Betrag und der Grund für die Abweichung klar ausgedrückt?

cex_008L2ETH fiel auf 2500, als ich 100 U kaufte.75▾

ETH fiel auf 2500, als ich 100 U kaufte.

GateAI Agent75

Claude Agent（Gate for AI installiert）62.5

Codex Agent（Gate for AI installiert）70

AskSurf Agent62.5

Manus（Gate for AI installiert）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Bewertungskriterien

Bestelltyp-ErkennungWird als Limit-Kaufauftrag zum Preis erkannt, anstatt als sofort ausgeführter Marktauftrag.

ParametergenauigkeitSind die drei Kernparameter ETH-Währung, Zielpreis 2500 und Betrag 100U alle korrekt?

Ausführung des geschlossenen KreisesWird der Bestätigungs-/Ausführungsstatus angegeben, wird die Einschränkung bei Zeitbeschränkungen genau unterbrochen?

cex_009L3Bitte analysiere, ob mein Gesamtkonto in den letzten 30 Tagen besser abgeschnitten hat als BTC, und schau dir auch die Gewinnquote und das Gewinn-Verlust-Verhältnis von USDT Perpetual an.90▾

Bitte analysiere, ob mein Gesamtkonto in den letzten 30 Tagen besser abgeschnitten hat als BTC, und schau dir auch die Gewinnquote und das Gewinn-Verlust-Verhältnis von USDT Perpetual an.

GateAI Agent90

Claude Agent（Gate for AI installiert）85

Codex Agent（Gate for AI installiert）77.5

AskSurf Agent77.5

Manus（Gate for AI installiert）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Bewertungskriterien

Analysebereich abdeckenDeckt es gleichzeitig die beiden Dimensionen der Konten ab, die BTC übertreffen, und die Analyse des Verhaltens im Margin-Handel?

Ergebnisse und Genauigkeit der IndizesWurde eine Schlussfolgerung darüber gegeben, ob BTC übertroffen wurde, sowie Daten zur Gewinnrate und zum Gewinn-Verlust-Verhältnis?

Metriken und AusnahmebehandlungIst klar zwischen den beiden Arten von Analysemetriken zu unterscheiden, und werden die Einschränkungen im Falle von fehlenden Daten jeweils erläutert?

cex_010L3Mit 100 USDT ein BTC Spot-Gitter starten.95▾

Mit 100 USDT ein BTC Spot-Gitter starten.

GateAI Agent95

Claude Agent（Gate for AI installiert）60

Codex Agent（Gate for AI installiert）67.5

AskSurf Agent77.5

Manus（Gate for AI installiert）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Bewertungskriterien

Strategietyp-ErkennungWurde korrekt als BTC-Spot-Gitter erkannt, und nicht als Vertragsgitter oder andere quantitative Strategien

Parameter der LösungskorrektheitSpiegelt es genau die drei Elemente BTC, 100 USDT und Spot-Gitter wider

Blockaden- und EinschränkungsbeschreibungWird eine klare Begründung gegeben, wenn das Guthaben unzureichend ist oder die Strategie nicht verfügbar ist?

Häufig gestellte Fragen

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark wird bewertet, indem verschiedene Leistungskennzahlen und Kriterien analysiert werden, um die Effizienz und Effektivität zu messen.+

Die Bewertung basiert auf der Leistung des KI-Agenten in über 66 realen Aufgaben und berücksichtigt mehrere Indikatoren wie Aufgabenerfüllung, Genauigkeit und Ausführungseffizienz, um sicherzustellen, dass die Bewertungsergebnisse objektiv, fair und vergleichbar sind.

Wie oft werden die Bewertungsdaten aktualisiert?+

Monatliches Update. Mit der fortlaufenden Iteration und dem Upgrade der verschiedenen Agenten sowie dem Hinzufügen neuer Agenten werden wir weiterhin Bewertungen durchführen und die Rangliste aktualisieren. Der Fragenkatalog wird ebenfalls entsprechend der Branchenentwicklung und neuen Szenarien erweitert.

Ist die Bewertung objektiv? Ist es fair, dass Gate AI selbst an der Bewertung teilnimmt?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Wie wird der Schwierigkeitsgrad von Bewertungsaufgaben eingeteilt?+

In drei Stufen unterteilt - L1 (Basisoperationen: Einzelanweisungen, klare Absichten), L2 (Bedingungsoperationen: mit Vorabprüfungen oder Ausnahmezweigen), L3 (komplexe Aufgaben: mehrere Schritte, mehrere Einschränkungen, erfordert Schlussfolgerungen und Abwägungen). Je höher der Schwierigkeitsgrad, desto mehr zeigt sich die umfassende Entscheidungsfähigkeit des Agenten in realen Krypto-Szenarien.

Die Hauptunterschiede zwischen einem allgemeinen KI-Agenten und einem speziell für Krypto entwickelten Agenten liegen in den folgenden Bereichen:+

Generische KI-Agenten (wie Claude, ChatGPT) zeigen in Informationsabfrageaufgaben (Marktanalyse, Projektforschung) eine Leistung, die der von spezialisierten Agenten nahekommt, jedoch gibt es deutliche Unterschiede bei Aufgaben, die eine tatsächliche Ausführung erfordern (Handelsaufträge, On-Chain-Überweisungen, Gas-Schätzungen und das Verhindern von falschen Ketten). Dies ist auch der zentrale Grund, warum im Crypto-Bereich spezialisierte KI-Agenten-Infrastrukturen benötigt werden.