suivre @SentientAGI pour obtenir l'Airdrop du projet ⚠️
Annonce importante|LiveCodeBench Pro (LCB-Pro) a été accepté par @NeurIPSConf !
Je vais vous présenter en détail le contenu de la mise à niveau, c'est vraiment incroyable.
C'est une profonde mise à niveau de la méthodologie d'évaluation de l'inférence de code - elle pousse la capacité superficielle de "écrire des morceaux de code" vers une évaluation d'"inférence de code de bout en bout, réellement reproductible".🎉
Pourquoi LCB-Pro est-il différent des précédents ? Ce n'est pas seulement une question de regarder quelques exemples ou docstrings pour voir s'ils peuvent être devinés, mais d'évaluer la chaîne complète de capacités du modèle, de la lecture de la question à la réussite des tests cachés, dans le cadre de véritables compétitions, avec des ressources gelées et des tests cachés adverses - c'est ça le véritable "coder".🔎
Processus d'évaluation (vraiment de bout en bout) Le modèle doit être complété : 1️⃣ Comprendre l'énoncé complet de la question (déclaration officielle) 2️⃣ Concevoir un algorithme et garantir qu'il respecte les limites de temps/mémoire 3️⃣ Sortie du code source C++ (ou dans un langage d'adaptateur) compilable 4️⃣ Compilation réussie dans l'image Docker unifiée 5️⃣ passer tous les cas d'utilisation sous le test caché déterministe Tout le processus produira le verdict de chaque question, les journaux, le temps wall-clock et les données de mémoire, entièrement auditable.📋
Conception anti-triche & renforcement des tests cachés • Récupérer les problèmes de compétition réels de Codeforces et geler les limites de temps/mémoire d'origine ; • Ajouter une phase de hack de style Codeforces et du fuzzing interne pour durcir les tests cachés ; Ainsi, le score n'est plus une question de chance dans le prompt, mais un véritable reflet de la capacité de codage robuste.💪
La source des sujets est large et la gamme de difficulté est complète. • Codeforces : durable, frais, large distribution des types de problèmes ; • ICPC : épreuve du niveau d'équipe en raisonnement en plusieurs étapes et en compétences d'ingénierie I/O ; • IOI : Évaluation des structures de données approfondies et de la pensée DP, une légère déviation algorithmique peut entraîner TLE/WA. Chaque question a également une notation de style Elo basée sur le taux de réussite historique des humains (≤2000 Facile / 2000–3000 Moyen / >3000 Difficile), ce qui permet de comparer les scores du modèle directement avec ceux des humains.📈
Transparence et reproductibilité - Cohérence entre local et classement L'exécution locale utilise le même juge Docker, les mêmes limites gelées et la même répartition des données ; le classement public adopte une configuration cohérente. Chaque exécution génère des artefacts JSON (verdict, sortie du compilateur, étiquette d'échec, etc.), facilitant la transition de "score" à "diagnostic".🧾
✅ Avantages directs pour les chercheurs et les équipes d'ingénierie • Techniques pour éviter le surapprentissage : révéler avec précision les faiblesses du modèle en matière de raisonnement en chaîne longue, de stratégies d'élagage, de stratégies de recherche, etc. • Amélioration de la boucle fermée : identifier directement les problèmes à partir des étiquettes et des journaux d'échec (erreurs logiques, traitement I/O, dépassement de temps, pics de mémoire) ; • Comparaison équitable : différents modèles/équipes peuvent être comparés de manière équitable, favorisant de réels progrès plutôt qu'un jeu de réglage de paramètres.🔬
Impact sur l'industrie et la communauté LCB-Pro peut devenir l'infrastructure de base de l'industrie pour l'entraînement et la publication de systèmes de génération de code / d'inférence : développement de modèles, évaluation académique, audit tiers, sélection de candidats - tout cela avec des normes d'évaluation unifiées et hautement fiables. La confiance de l'industrie et la sécurité du déploiement des modèles seront considérablement améliorées. 🚀
Rendons hommage à l'équipe qui a contribué à la création de LCB-Pro et à son acceptation par NeurIPS ! C'est la plus haute reconnaissance d'une évaluation rigoureuse et d'une pratique d'ingénierie - cela marque également le passage de l'évaluation des capacités de compréhension du code AI à une nouvelle ère de « vérifiable et mature ». Félicitations chaleureuses à tous les participants ! 👏 Vous souhaitez exécuter un benchmark ? Clonez le dépôt → Préparez Python 3.12 + Docker → Implémentez l'appel selon la spécification de l'adaptateur → Exécutez localement avec python, une fois que vous avez obtenu l'objet JSON, vous pourrez le comparer directement avec les résultats du classement et le soumettre. Transformez le "score" en une feuille de route d'amélioration explicable.🔧
LiveCodeBench Pro n'est pas seulement un benchmark, c'est une étape clé qui permet à l'IA d'évoluer de "produire du code qui semble correct" à "résoudre des problèmes de manière fiable sous des contraintes de ressources réelles". J'espère voir davantage de modèles être testés équitablement et continuellement perfectionnés sur cette scène. ✨
Félicitations à nouveau à LCB-Pro et à tous les contributeurs - vous avez amené les normes d'évaluation "réelles, reproductibles et diagnostiques" dans la vision principale du codage de l'IA. J'attends avec impatience que d'excellents modèles se forgent, grandissent et propulsent l'ensemble du domaine vers l'avant.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
suivre @SentientAGI pour obtenir l'Airdrop du projet ⚠️
Annonce importante|LiveCodeBench Pro (LCB-Pro) a été accepté par @NeurIPSConf !
Je vais vous présenter en détail le contenu de la mise à niveau, c'est vraiment incroyable.
C'est une profonde mise à niveau de la méthodologie d'évaluation de l'inférence de code - elle pousse la capacité superficielle de "écrire des morceaux de code" vers une évaluation d'"inférence de code de bout en bout, réellement reproductible".🎉
Pourquoi LCB-Pro est-il différent des précédents ?
Ce n'est pas seulement une question de regarder quelques exemples ou docstrings pour voir s'ils peuvent être devinés, mais d'évaluer la chaîne complète de capacités du modèle, de la lecture de la question à la réussite des tests cachés, dans le cadre de véritables compétitions, avec des ressources gelées et des tests cachés adverses - c'est ça le véritable "coder".🔎
Processus d'évaluation (vraiment de bout en bout)
Le modèle doit être complété :
1️⃣ Comprendre l'énoncé complet de la question (déclaration officielle)
2️⃣ Concevoir un algorithme et garantir qu'il respecte les limites de temps/mémoire
3️⃣ Sortie du code source C++ (ou dans un langage d'adaptateur) compilable
4️⃣ Compilation réussie dans l'image Docker unifiée
5️⃣ passer tous les cas d'utilisation sous le test caché déterministe
Tout le processus produira le verdict de chaque question, les journaux, le temps wall-clock et les données de mémoire, entièrement auditable.📋
Conception anti-triche & renforcement des tests cachés
• Récupérer les problèmes de compétition réels de Codeforces et geler les limites de temps/mémoire d'origine ;
• Ajouter une phase de hack de style Codeforces et du fuzzing interne pour durcir les tests cachés ;
Ainsi, le score n'est plus une question de chance dans le prompt, mais un véritable reflet de la capacité de codage robuste.💪
La source des sujets est large et la gamme de difficulté est complète.
• Codeforces : durable, frais, large distribution des types de problèmes ;
• ICPC : épreuve du niveau d'équipe en raisonnement en plusieurs étapes et en compétences d'ingénierie I/O ;
• IOI : Évaluation des structures de données approfondies et de la pensée DP, une légère déviation algorithmique peut entraîner TLE/WA.
Chaque question a également une notation de style Elo basée sur le taux de réussite historique des humains (≤2000 Facile / 2000–3000 Moyen / >3000 Difficile), ce qui permet de comparer les scores du modèle directement avec ceux des humains.📈
Transparence et reproductibilité - Cohérence entre local et classement
L'exécution locale utilise le même juge Docker, les mêmes limites gelées et la même répartition des données ; le classement public adopte une configuration cohérente. Chaque exécution génère des artefacts JSON (verdict, sortie du compilateur, étiquette d'échec, etc.), facilitant la transition de "score" à "diagnostic".🧾
✅ Avantages directs pour les chercheurs et les équipes d'ingénierie
• Techniques pour éviter le surapprentissage : révéler avec précision les faiblesses du modèle en matière de raisonnement en chaîne longue, de stratégies d'élagage, de stratégies de recherche, etc.
• Amélioration de la boucle fermée : identifier directement les problèmes à partir des étiquettes et des journaux d'échec (erreurs logiques, traitement I/O, dépassement de temps, pics de mémoire) ;
• Comparaison équitable : différents modèles/équipes peuvent être comparés de manière équitable, favorisant de réels progrès plutôt qu'un jeu de réglage de paramètres.🔬
Impact sur l'industrie et la communauté
LCB-Pro peut devenir l'infrastructure de base de l'industrie pour l'entraînement et la publication de systèmes de génération de code / d'inférence : développement de modèles, évaluation académique, audit tiers, sélection de candidats - tout cela avec des normes d'évaluation unifiées et hautement fiables. La confiance de l'industrie et la sécurité du déploiement des modèles seront considérablement améliorées. 🚀
Rendons hommage à l'équipe qui a contribué à la création de LCB-Pro et à son acceptation par NeurIPS ! C'est la plus haute reconnaissance d'une évaluation rigoureuse et d'une pratique d'ingénierie - cela marque également le passage de l'évaluation des capacités de compréhension du code AI à une nouvelle ère de « vérifiable et mature ». Félicitations chaleureuses à tous les participants ! 👏
Vous souhaitez exécuter un benchmark ? Clonez le dépôt → Préparez Python 3.12 + Docker → Implémentez l'appel selon la spécification de l'adaptateur → Exécutez localement avec python, une fois que vous avez obtenu l'objet JSON, vous pourrez le comparer directement avec les résultats du classement et le soumettre. Transformez le "score" en une feuille de route d'amélioration explicable.🔧
LiveCodeBench Pro n'est pas seulement un benchmark, c'est une étape clé qui permet à l'IA d'évoluer de "produire du code qui semble correct" à "résoudre des problèmes de manière fiable sous des contraintes de ressources réelles". J'espère voir davantage de modèles être testés équitablement et continuellement perfectionnés sur cette scène. ✨
Félicitations à nouveau à LCB-Pro et à tous les contributeurs - vous avez amené les normes d'évaluation "réelles, reproductibles et diagnostiques" dans la vision principale du codage de l'IA. J'attends avec impatience que d'excellents modèles se forgent, grandissent et propulsent l'ensemble du domaine vers l'avant.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI