BARU SAJA: Sebuah studi yang dipimpin oleh DeepSeek menunjukkan bahwa model bahasa besar terlalu banyak memboroskan komputasi untuk mencoba merekonstruksi pengetahuan statis dalam Transformer.


Solusi mereka adalah Engram, sebuah modul memori kondisional yang menggabungkan pencarian O(1) dengan arsitektur MoE, dan yang dalam pengujian internal menunjukkan peningkatan dalam pengetahuan, penalaran, pemrograman, matematika, dan tugas konteks panjang.
Lihat Asli
post-image
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 1
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
User_anyvip
· 51menit yang lalu
LFG 🔥
Balas0
  • Sematkan