[DeepSeek lança modelo Prover-V2 com 671 bilhões de parâmetros] A DeepSeek lançou hoje um novo modelo chamado DeepSeek-Prover-V2-671B no Hugging Face, uma comunidade de IA de código aberto. É relatado que o DeepSeek-Prover-V2-671B usa um formato de arquivo safetensors mais eficiente e suporta uma variedade de precisões de cálculo, o que é conveniente para treinamento e implantação de modelos mais rápidos e com economia de recursos, com 671 bilhões de parâmetros, ou uma versão atualizada do modelo matemático Prover-V1.5 lançado no ano passado. Em termos de arquitetura de modelo, o modelo usa a arquitetura DeepSeek-V3, adota o modo MoE (Hybrid Expert) e tem 61 camadas de Transformer e 7168 camadas ocultas dimensionais. Ao mesmo tempo, suporta contextos ultralongos, com uma incorporação de posição máxima de até 163.800, o que lhe permite processar provas matemáticas complexas, e a quantização FP8 é adotada, o que pode reduzir o tamanho do modelo e melhorar a eficiência de inferência através da tecnologia de quantização. ( ouro dez )

DEEPSEEK2,88%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GatePreIPOsLaunchesWithSpaceX
308.89K Popularidade
#
Gate13thAnniversaryLive
892.82K Popularidade
#
BitcoinBouncesBack
180.61K Popularidade
#
IsraelStrikesIranBTCPlunges
30.62K Popularidade
#
USIranTalksProgress
206.58K Popularidade

Marcar

sitemap

A DeepSeek lançou o modelo Prover-V2, com um total de 6710 bilhões de parâmetros.

Tendências

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Marcar