Notícias do CoinWorld, o Google lançou e open-soube o modelo de rascunho de previsão de múltiplos tokens (MTP) da série Gemma 4. Este é um modelo auxiliar leve que utiliza uma arquitetura de decodificação especulativa, capaz de acelerar a inferência até 3 vezes, mantendo a precisão final do modelo principal, sem comprometer a qualidade da saída ou a capacidade de raciocínio lógico. Este modelo foi totalmente open-sourced sob a mesma licença Apache 2.0 da Gemma 4, e suporta nativamente frameworks de inferência populares como vllm, sglang e ollama. Essa otimização de velocidade reduz significativamente a barreira de entrada, permitindo que desenvolvedores executem fluentemente modelos 26b moe e 31b denso em GPUs de consumo comum, além de suportar interações de IA em tempo real em dispositivos móveis com menor consumo de energia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar