العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
أداء أفضل النماذج في اختبار PinchBench: قاد Gemini 3 Flash بمعدل نجاح 95.1%
وفقًا لتقرير داولي ستار ديلي الأخير، كشف مسؤول أمن المعلومات في شركة مغما عن تطور مهم على وسائل التواصل الاجتماعي. يُظهر هذا الاختبار الشامل الذي يقيم قدرات نماذج الذكاء الاصطناعي الحديثة مدى فاعلية النماذج اللغوية المختلفة في أداء المهام المعتمدة على الوكلاء.
اختبار قدرات النماذج في مهام الوكلاء باستخدام OpenClaw
قام مقياس PinchBench بتقييم نماذج مختلفة في سيناريوهات الوكلاء OpenClaw. تم تصميم هذا الاختبار لفهم أي نماذج اللغة يمكنها التعامل بشكل أفضل مع المهام المعقدة المعتمدة على الوكلاء. نتائج الاختبار مهمة للمجتمع التقني لأنها تعكس أداء نماذج الذكاء الاصطناعي في تطبيقات العالم الحقيقي.
مقارنة معدلات النجاح لأفضل نماذج الذكاء الاصطناعي
في نتائج PinchBench، حقق نموذج Gemini 3 Flash أعلى معدل نجاح بنسبة 95.1%. يليه minimax-m2.1 بنسبة نجاح 93.6%، ويأتي في المركز الثالث kimi-k2.5 بنسبة 93.4%. أظهر نموذج Claude Sonnet 4.5 كفاءة بنسبة 92.7%، بينما كانت نسبة نجاح GPT-4o 85.2%.
أهمية التصنيف الأول لـ Gemini 3 Flash
تحقيق Gemini 3 Flash لمعدل نجاح 95.1% هو إنجاز مهم، يدل على أن هذا النموذج مناسب جدًا للمهام المعتمدة على الوكلاء. تظهر نتائج الاختبار أن هناك فروقًا كبيرة في قدرات النماذج المختلفة، ويجب على المؤسسات اختيار النماذج التي تلبي احتياجاتها الخاصة. تعتبر اختبارات مثل PinchBench أدوات مهمة لاتخاذ قرارات تطويرية في هذا المجال.