A DeepSeek lançou o modelo Prover-V2, com um total de 6710 bilhões de parâmetros.

robot
Geração do resumo em andamento

[DeepSeek lança modelo Prover-V2 com 671 bilhões de parâmetros] A DeepSeek lançou hoje um novo modelo chamado DeepSeek-Prover-V2-671B no Hugging Face, uma comunidade de IA de código aberto. É relatado que o DeepSeek-Prover-V2-671B usa um formato de arquivo safetensors mais eficiente e suporta uma variedade de precisões de cálculo, o que é conveniente para treinamento e implantação de modelos mais rápidos e com economia de recursos, com 671 bilhões de parâmetros, ou uma versão atualizada do modelo matemático Prover-V1.5 lançado no ano passado. Em termos de arquitetura de modelo, o modelo usa a arquitetura DeepSeek-V3, adota o modo MoE (Hybrid Expert) e tem 61 camadas de Transformer e 7168 camadas ocultas dimensionais. Ao mesmo tempo, suporta contextos ultralongos, com uma incorporação de posição máxima de até 163.800, o que lhe permite processar provas matemáticas complexas, e a quantização FP8 é adotada, o que pode reduzir o tamanho do modelo e melhorar a eficiência de inferência através da tecnologia de quantização. ( ouro dez )

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar