DeepSeekはProver-V2モデルを発表し、パラメータ数は6710億に達しました。

robot
概要作成中

[DeepSeek、6,710億パラメータのProver-V2モデルをリリース] DeepSeekは本日、オープンソースのAIコミュニティであるHugging Faceで、新モデル「DeepSeek-Prover-V2-671B」をリリースしました。 DeepSeek-Prover-V2-671Bは、より効率的なsafetensorsファイル形式を使用し、さまざまな計算精度をサポートしていると報告されており、6710億のパラメータ、または昨年リリースされたProver-V1.5数学モデルのアップグレードバージョンを使用して、より高速でリソースを節約するモデルのトレーニングと展開に便利です。 モデルアーキテクチャに関しては、モデルはDeepSeek-V3アーキテクチャを使用し、MoE(Hybrid Expert)モードを採用し、61のTransformer層と7168の次元隠れ層を備えています。 同時に、最大位置埋め込みが最大163,800で複雑な数学的証明を処理できる超ロングコンテキストをサポートし、FP8量子化が採用されているため、量子化技術によりモデルサイズを縮小し、推論効率を向上させることができます。 (ゴールドテン)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン