seguir @SentientAGI Quer receber a atenção do projeto Airdrop⚠️



Anúncio importante|LiveCodeBench Pro (LCB-Pro) foi aceito pelo @NeurIPSConf!

Vou apresentar a todos os detalhes da atualização, é realmente incrível.

Esta é uma profunda atualização da metodologia de avaliação de raciocínio de codificação - ela eleva a capacidade superficial de "escrever fragmentos de código" para uma avaliação de "raciocínio de codificação end-to-end, verdadeiramente reprodutível". 🎉

Por que o LCB-Pro é diferente dos anteriores?
Não se trata apenas de ver alguns exemplos ou se o docstring pode ser adivinhado, mas sim de avaliar a cadeia completa de capacidade do modelo, desde a leitura da pergunta até a passagem do teste oculto sob questões de competição reais, restrições de recursos congelados e testes adversariais – isso é o verdadeiro "saber codificar".🔎

Processo de avaliação (verdadeiramente de ponta a ponta)
Modelo deve ser concluído:
1️⃣ Compreender o enunciado completo (declaração oficial)
2️⃣ Projetar algoritmos e garantir que estejam dentro dos limites de tempo/memória
3️⃣ Saída de código-fonte C++ (ou linguagem de adaptador) compilável
4️⃣ Compilado com sucesso na imagem Docker unificada
5️⃣ Passar todos os casos de teste sob teste oculto determinístico
Todo o processo irá gerar o veredicto de cada pergunta, registos, tempo de wall-clock e dados de memória, completamente auditáveis.📋

Design anti-trapaça & reforço de testes ocultos
• Capturar as questões reais do Codeforces e congelar os limites originais de tempo/memória;
• Adicionar uma fase de hack ao estilo Codeforces e fuzzing interno, para fortalecer os testes ocultos;
Portanto, a pontuação não é mais uma questão de sorte no prompt, mas sim uma verdadeira demonstração de capacidade de codificação robusta.💪

A fonte da questão cobre uma ampla gama e possui um espectro de dificuldade completo.
• Codeforces: contínuo, fresco, ampla distribuição de tipos de questões;
• ICPC: Testa a capacidade de raciocínio em múltiplos passos e engenharia de I/O em nível de equipe;
• IOI: Avaliação de estruturas de dados profundas e pensamento DP, uma leve desvio algorítmico pode resultar em TLE/WA.
Cada questão também possui uma classificação estilo Elo baseada na taxa de aprovação histórica da humanidade (≤2000 Fácil / 2000–3000 Médio / >3000 Difícil), permitindo que a pontuação do modelo seja comparada diretamente com a dos humanos.📈

Transparente e Reproduzível — Consistente com o Local e o Ranking
A execução local utiliza o mesmo juiz Docker, restrições congeladas e divisão de dados; o ranking público adota uma configuração consistente. Cada execução gera artefatos JSON (veredicto, saída do compilador, rótulo de falha, etc.), facilitando a transição de "pontuação" para "diagnóstico".🧾

✅ Benefício direto para pesquisadores e equipes de engenharia
• Dicas para evitar overfitting: revelar com precisão as limitações do modelo em relação ao raciocínio de longa cadeia, estratégias de poda, estratégias de busca, etc.;
• Melhorar o ciclo fechado: localizar problemas diretamente a partir de etiquetas de falha e logs (erros lógicos, processamento de I/O, tempo limite, picos de memória);
• Comparação justa: diferentes modelos/equipas podem ser comparados de forma equivalente, promovendo progresso real em vez de apenas ajuste de parâmetros.🔬

Impacto na indústria e na comunidade
O LCB-Pro pode se tornar a infraestrutura industrial para treinamento e lançamento de sistemas de geração/inferência de código: desenvolvimento de modelos, avaliação acadêmica, auditoria de terceiros, triagem de recrutamento - tudo com padrões de avaliação unificados e de alta confiabilidade. A confiança da indústria e a segurança na implantação de modelos serão substancialmente aprimoradas. 🚀

Uma homenagem à equipe que impulsionou a criação do LCB-Pro e foi aceita no NeurIPS! Este é o mais alto reconhecimento pela rigorosa avaliação e prática de engenharia — e marca a entrada da avaliação da capacidade de compreensão de código de IA em uma nova era de "madureza verificável". Parabéns a todos os participantes! 👏
Quer correr o benchmark? Clone o repositório → Prepare Python 3.12 + Docker → Implemente a chamada de acordo com as normas do adaptador → Execute localmente com python uma vez, após obter o artefato JSON, poderá comparar diretamente com os resultados do ranking e submeter. Transforme a "pontuação" em um roteiro de melhorias explicável. 🔧

LiveCodeBench Pro não é apenas um benchmark, é um marco crucial para que a IA evolua de "escrever código que parece correto" para "resolver problemas de forma confiável sob restrições de recursos reais". Aguardamos ver mais modelos sendo testados de forma justa e aperfeiçoados neste palco. ✨

Parabéns novamente ao LCB-Pro e a todos os contribuintes — vocês trouxeram os padrões de avaliação "real, reprodutível e diagnosticável" para o foco principal da codificação de IA. Aguardamos mais modelos excelentes que se refinam, crescem e impulsionam todo o campo para a frente aqui.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)