A Windsurf treinou um pequeno modelo especializado em detectar bugs usando RL, e na avaliação interna igualou o Claude Opus 4.6

robot
Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com o monitoramento do Beating, a empresa-mãe do Windsurf, ferramenta de programação AI, Cognition AI, colaborou com a empresa de treinamento de IA Applied Compute, treinando um modelo especializado na detecção de bugs de código, o SWE-Check, por reforço de aprendizagem. Este modelo analisa as alterações de código atuais do usuário (diff), marca automaticamente possíveis bugs introduzidos e fornece sugestões de correção.
Nos testes de distribuição semelhante aos dados de treinamento, a pontuação F1 do SWE-Check igualou a do Claude Opus 4.6 (a diferença caiu de 0,09 para 0); nos testes de distribuição cruzada, a diferença diminuiu de 0,49 para 0,29, ainda ficando atrás dos modelos de ponta, mas com progresso evidente.
A vantagem principal está na velocidade e no custo: a velocidade de execução do SWE-Check é uma ordem de magnitude maior que a dos modelos de ponta, e o custo de inferência também foi significativamente reduzido, permitindo detecção de bugs instantânea e gratuita no IDE, algo que modelos grandes como o Opus 4.6 não podem fazer por chamada direta.
Existem duas abordagens de treinamento que merecem atenção:

  1. Linearização de recompensa (reward linearization): a equipe deseja otimizar a métrica global F-beta, mas essa métrica não pode ser decomposta diretamente em amostras individuais. Eles convertem essa métrica em uma função de recompensa que pode ser calculada amostra a amostra por uma aproximação de primeira ordem, permitindo que o treinamento melhore efetivamente a métrica global. Versões iniciais apresentaram alta taxa de falsos positivos, então a equipe ajustou beta de 1 para 0,5 para enfatizar precisão.
  2. Treinamento pós-duas fases: a primeira fase maximiza puramente a capacidade de detecção de bugs, sem penalizar atrasos; a segunda fase introduz penalidades por atraso, baseando-se na distribuição estatística de quanto tempo os usuários reais levam para trocar de ferramenta após ativar a detecção. Essa abordagem em fases é superior à otimização simultânea de ambos os objetivos, pois a última pode levar a ótimos locais, como aprender a detectar rapidamente com análise superficial.
    A versão de pré-visualização do SWE-Check já está disponível no Windsurf Next (atalho cmd+U), e posteriormente será integrada na versão oficial do Windsurf.
    (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar