A Windsurf treinou um pequeno modelo especializado em detectar bugs usando RL, e na avaliação interna igualou o Claude Opus 4.6

robot
Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização do Beating, a empresa-mãe do Windsurf, ferramenta de programação AI, Cognition AI, colaborou com a empresa de treino de IA Applied Compute, treinando um modelo especializado na deteção de bugs de código, o SWE-Check, através de aprendizagem por reforço. Este modelo analisa as alterações de código atuais do utilizador (diff), marca automaticamente possíveis bugs introduzidos e fornece sugestões de correção.
Nos testes de avaliação com a mesma distribuição dos dados de treino, a pontuação F1 do SWE-Check igualou a do Claude Opus 4.6 (a diferença caiu de 0,09 para 0); nos testes de avaliação com distribuições diferentes, a diferença reduziu-se de 0,49 para 0,29, ainda atrás dos modelos de ponta, mas com melhorias evidentes.
A principal vantagem reside na velocidade e no custo: o SWE-Check é um fator de 10 mais rápido que os modelos de ponta, com custos de inferência significativamente mais baixos, permitindo deteção de bugs instantânea e gratuita dentro do IDE, algo que modelos grandes como o Opus 4.6 não conseguem fazer por chamada direta.
Existem duas abordagens de treino que merecem atenção:

  1. Linearização da recompensa (reward linearization): a equipa pretende otimizar o índice global F-beta, mas esse índice não pode ser descomposto diretamente em amostras individuais. Eles convertem esse índice num função de recompensa calculável por amostra através de uma aproximação de primeira ordem, permitindo que o treino melhore efetivamente o índice global. Nas versões iniciais, a taxa de falsos positivos era elevada, por isso ajustaram o beta de 1 para 0,5 para enfatizar a precisão.
  2. Treino em duas fases posteriores: a primeira fase foca apenas na maximização da deteção de bugs, sem penalizar atrasos; a segunda fase introduz penalizações por atraso, baseando-se na distribuição estatística do tempo que um utilizador real leva para abandonar após ativar a deteção. Este método em fases é superior a otimizar ambos os objetivos simultaneamente, pois o último pode levar a mínimos locais, como aprender a ser extremamente rápido mas superficial na análise.
    A versão preliminar do SWE-Check já está disponível no Windsurf Next (atalho cmd+U), e posteriormente será integrada na versão oficial do Windsurf.
    (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar