Apakah menyimpan setiap pasangan KV bermakna? Terutama ketika model sebenarnya hanya akan melakukan query pada sebagian kecil dari mereka.
Gagasan KVzap sangat langsung—melalui pembelajaran untuk menentukan cache mana yang tidak akan digunakan dalam query selanjutnya, lalu secara aktif menghapusnya. Hasilnya adalah dapat mengompresi volume cache menjadi 1/2 hingga 1/4 dari ukuran aslinya, sekaligus hampir tidak mempengaruhi kinerja.
Metode pruning cache KV yang cerdas dan bergantung secara dinamis ini memiliki arti praktis dalam meningkatkan efisiensi inferensi model dan menurunkan biaya penyimpanan. Terutama dalam skenario deployment skala besar, ruang optimisasi seperti ini masih cukup signifikan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
15 Suka
Hadiah
15
7
Posting ulang
Bagikan
Komentar
0/400
BearMarketSurvivor
· 01-17 21:02
Pasangan KV redundan yang disimpan, seperti persediaan yang tidak terpakai di medan perang—menghabiskan tempat dan menghambat. Operasi kompresi KVzap yang diperkecil menjadi 1/4 ini, terasa seperti akhirnya ada yang menghitung dengan serius.
Lihat AsliBalas0
OnchainFortuneTeller
· 01-17 20:23
Haha ini kan hanya tentang pembersihan cache KV, akhirnya ada orang yang mengerti masalah ini dengan baik
Lihat AsliBalas0
LightningClicker
· 01-16 00:38
Aduh, akhirnya ada yang melakukan hal ini, sebelumnya selalu merasa ini adalah pemborosan, benar-benar sia-sia menyimpan begitu banyak data sampah
Lihat AsliBalas0
DogeBachelor
· 01-14 23:49
Ini memang cuma hiburan, strategi cache KV sebelumnya benar-benar sia-sia... Dikompresi menjadi 1/4 tetap bisa berjalan, keren nih
Lihat AsliBalas0
AlphaWhisperer
· 01-14 23:46
Haha, masalah lama tentang pemborosan ruang penyimpanan akhirnya terselesaikan dengan baik, ide KVzap ini benar-benar segar
Lihat AsliBalas0
bridgeOops
· 01-14 23:43
Ini adalah pendekatan optimisasi yang realistis, bukan sekadar untuk mengoptimalkan. Rasio kompresi dari 1/2 hingga 1/4, biaya langsung dipangkas.
Apakah menyimpan setiap pasangan KV bermakna? Terutama ketika model sebenarnya hanya akan melakukan query pada sebagian kecil dari mereka.
Gagasan KVzap sangat langsung—melalui pembelajaran untuk menentukan cache mana yang tidak akan digunakan dalam query selanjutnya, lalu secara aktif menghapusnya. Hasilnya adalah dapat mengompresi volume cache menjadi 1/2 hingga 1/4 dari ukuran aslinya, sekaligus hampir tidak mempengaruhi kinerja.
Metode pruning cache KV yang cerdas dan bergantung secara dinamis ini memiliki arti praktis dalam meningkatkan efisiensi inferensi model dan menurunkan biaya penyimpanan. Terutama dalam skenario deployment skala besar, ruang optimisasi seperti ini masih cukup signifikan.