The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
Menutupi seluruh jalur pengguna Crypto — dari operasi dasar CEX hingga penyelidikan on-chain yang kompleks, semuanya dibangun berdasarkan skenario nyata.
Pesanan spot, pembukaan dan penutupan kontrak, pemeriksaan investasi, strategi grid, transfer akun dan analisis kombinasi.
Swap on-chain, perbandingan jembatan lintas rantai, kontrol slippage, optimasi rute multi-langkah, dan evaluasi risiko kontrak.
Multi-chain transfer, estimasi cadangan Gas, validasi format alamat, pemblokiran rantai yang salah, dan transfer bersyarat.
Pergerakan pasar secara real-time, analisis teknis RSI / K Line, penilaian hubungan volume dan harga, perbandingan multi-koin dan perbandingan volatilitas.
Analisis ekonomi token, penilaian siklus narasi, deteksi Rug Pull, perbandingan produk pesaing dan laporan penelitian.
Analisis gambar alamat dan keuntungan/rugi, pelacakan paus besar, sinyal Smart Money, serta pemantauan keamanan protokol.
Instruksi langkah tunggal, dengan niat yang jelas. Seperti memeriksa saldo, melihat harga pasar, melakukan pemesanan sederhana.
Termasuk pemeriksaan awal atau cabang pengecualian. Seperti pemblokiran saldo tidak cukup, pelengkapan parameter, identifikasi risiko rantai yang salah.
Banyak langkah, banyak batasan, perlu penalaran dan pertimbangan. Seperti jalur optimal lintas rantai, transfer penuh dengan mempertahankan Gas.
Skor tertimbang dari 6 dimensi. Semua penilaian menggunakan mekanisme konsensus dua model, didukung oleh arbitrase manual.
| # | Agen | tipe | Total Score | CEX | DEX | dompet | Analisis Pasar | Penelitian proyek | Pelacakan di blockchain |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | AI Umum | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI terpasang) | AI Umum | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI terpasang) | AI Umum | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Kripto AI | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI terpasang) | AI Umum | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Kripto AI | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | AI Umum | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Kripto AI | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | AI Umum | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent menduduki peringkat pertama dalam evaluasi kali ini. Sebagai Agent yang terintegrasi secara mendalam di bursa, ia menduduki peringkat pertama dalam tiga dimensi inti: perdagangan CEX, perdagangan DEX, dan analisis pasar. Evaluasi kali ini melibatkan 9 Agent, dengan topik yang mencakup perdagangan CEX, perdagangan DEX, operasi dompet, analisis pasar, investigasi on-chain, dan penelitian proyek dalam 6 skenario besar, yang dinilai dengan mekanisme konsensus dua model dan dilengkapi dengan verifikasi manual. Kinerja Gate AI Agent di bawah standar ini adalah verifikasi lengkap terhadap kemampuannya yang asli di Web3.
Setiap pertanyaan dinilai secara independen berdasarkan 2-3 dimensi penilaian, menggunakan audit konsensus dua model, semua tolok ukur dan bobot sepenuhnya terbuka.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
Klik pada judul mana saja untuk melihat skor dan dimensi penilaian masing-masing Agen.