2025-10-19 08:15:59

seguir @SentientAGI Quer receber a atenção do projeto Airdrop⚠️

Anúncio importante｜LiveCodeBench Pro (LCB-Pro) foi aceito pelo @NeurIPSConf!

Vou apresentar a todos os detalhes da atualização, é realmente incrível.

Esta é uma profunda atualização da metodologia de avaliação de raciocínio de codificação - ela eleva a capacidade superficial de "escrever fragmentos de código" para uma avaliação de "raciocínio de codificação end-to-end, verdadeiramente reprodutível". 🎉

Por que o LCB-Pro é diferente dos anteriores?
Não se trata apenas de ver alguns exemplos ou se o docstring pode ser adivinhado, mas sim de avaliar a cadeia completa de capacidade do modelo, desde a leitura da pergunta até a passagem do teste oculto sob questões de competição reais, restrições de recursos congelados e testes adversariais – isso é o verdadeiro "saber codificar".🔎

Processo de avaliação (verdadeiramente de ponta a ponta)
Modelo deve ser concluído:
1️⃣ Compreender o enunciado completo (declaração oficial)
2️⃣ Projetar algoritmos e garantir que estejam dentro dos limites de tempo/memória
3️⃣ Saída de código-fonte C++ (ou linguagem de adaptador) compilável
4️⃣ Compilado com sucesso na imagem Docker unificada
5️⃣ Passar todos os casos de teste sob teste oculto determinístico
Todo o processo irá gerar o veredicto de cada pergunta, registos, tempo de wall-clock e dados de memória, completamente auditáveis.📋

Design anti-trapaça & reforço de testes ocultos
• Capturar as questões reais do Codeforces e congelar os limites originais de tempo/memória;
• Adicionar uma fase de hack ao estilo Codeforces e fuzzing interno, para fortalecer os testes ocultos;
Portanto, a pontuação não é mais uma questão de sorte no prompt, mas sim uma verdadeira demonstração de capacidade de codificação robusta.💪

A fonte da questão cobre uma ampla gama e possui um espectro de dificuldade completo.
• Codeforces: contínuo, fresco, ampla distribuição de tipos de questões;
• ICPC: Testa a capacidade de raciocínio em múltiplos passos e engenharia de I/O em nível de equipe;
• IOI: Avaliação de estruturas de dados profundas e pensamento DP, uma leve desvio algorítmico pode resultar em TLE/WA.
Cada questão também possui uma classificação estilo Elo baseada na taxa de aprovação histórica da humanidade (≤2000 Fácil / 2000–3000 Médio / >3000 Difícil), permitindo que a pontuação do modelo seja comparada diretamente com a dos humanos.📈

Transparente e Reproduzível — Consistente com o Local e o Ranking
A execução local utiliza o mesmo juiz Docker, restrições congeladas e divisão de dados; o ranking público adota uma configuração consistente. Cada execução gera artefatos JSON (veredicto, saída do compilador, rótulo de falha, etc.), facilitando a transição de "pontuação" para "diagnóstico".🧾

✅ Benefício direto para pesquisadores e equipes de engenharia
• Dicas para evitar overfitting: revelar com precisão as limitações do modelo em relação ao raciocínio de longa cadeia, estratégias de poda, estratégias de busca, etc.;
• Melhorar o ciclo fechado: localizar problemas diretamente a partir de etiquetas de falha e logs (erros lógicos, processamento de I/O, tempo limite, picos de memória);
• Comparação justa: diferentes modelos/equipas podem ser comparados de forma equivalente, promovendo progresso real em vez de apenas ajuste de parâmetros.🔬

Impacto na indústria e na comunidade
O LCB-Pro pode se tornar a infraestrutura industrial para treinamento e lançamento de sistemas de geração/inferência de código: desenvolvimento de modelos, avaliação acadêmica, auditoria de terceiros, triagem de recrutamento - tudo com padrões de avaliação unificados e de alta confiabilidade. A confiança da indústria e a segurança na implantação de modelos serão substancialmente aprimoradas. 🚀

Uma homenagem à equipe que impulsionou a criação do LCB-Pro e foi aceita no NeurIPS! Este é o mais alto reconhecimento pela rigorosa avaliação e prática de engenharia — e marca a entrada da avaliação da capacidade de compreensão de código de IA em uma nova era de "madureza verificável". Parabéns a todos os participantes! 👏
Quer correr o benchmark? Clone o repositório → Prepare Python 3.12 + Docker → Implemente a chamada de acordo com as normas do adaptador → Execute localmente com python uma vez, após obter o artefato JSON, poderá comparar diretamente com os resultados do ranking e submeter. Transforme a "pontuação" em um roteiro de melhorias explicável. 🔧

LiveCodeBench Pro não é apenas um benchmark, é um marco crucial para que a IA evolua de "escrever código que parece correto" para "resolver problemas de forma confiável sob restrições de recursos reais". Aguardamos ver mais modelos sendo testados de forma justa e aperfeiçoados neste palco. ✨

Parabéns novamente ao LCB-Pro e a todos os contribuintes — vocês trouxeram os padrões de avaliação "real, reprodutível e diagnosticável" para o foco principal da codificação de IA. Aguardamos mais modelos excelentes que se refinam, crescem e impulsionam todo o campo para a frente aqui.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópicos em destaqueVer mais
#ETHReboundSoon?
16.3K Popularidade
#WhaleAdds$250MBTCLongs
13.3K Popularidade
#BigTokenUnlocksAhead
9.1K Popularidade
#FedHostsInnovationSummit
2.5K Popularidade
#ShowMyAlphaPoints
201.1K Popularidade

Gate Fun tendênciaVer mais
1GDOGGdog
LM:$932.4KTitulares:7166
2GCATGCAT
LM:$1.2MTitulares:10577
3芝麻开门芝麻开门
LM:$845.5KTitulares:130
4GMGMEME
LM:$109.6KTitulares:2790
5芝麻人生芝麻人生
LM:$111.8KTitulares:7331

Fixar