2026-03-26 20:05:02

BARU SAJA: Sebuah studi yang dipimpin oleh DeepSeek menunjukkan bahwa model bahasa besar terlalu banyak memboroskan komputasi untuk mencoba merekonstruksi pengetahuan statis dalam Transformer.

Solusi mereka adalah Engram, sebuah modul memori kondisional yang menggabungkan pencarian O(1) dengan arsitektur MoE, dan yang dalam pengujian internal menunjukkan peningkatan dalam pengetahuan, penalaran, pemrograman, matematika, dan tugas konteks panjang.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka