Apakah menyimpan setiap pasangan KV bermakna? Terutama ketika model sebenarnya hanya akan melakukan query pada sebagian kecil dari mereka.



Gagasan KVzap sangat langsung—melalui pembelajaran untuk menentukan cache mana yang tidak akan digunakan dalam query selanjutnya, lalu secara aktif menghapusnya. Hasilnya adalah dapat mengompresi volume cache menjadi 1/2 hingga 1/4 dari ukuran aslinya, sekaligus hampir tidak mempengaruhi kinerja.

Metode pruning cache KV yang cerdas dan bergantung secara dinamis ini memiliki arti praktis dalam meningkatkan efisiensi inferensi model dan menurunkan biaya penyimpanan. Terutama dalam skenario deployment skala besar, ruang optimisasi seperti ini masih cukup signifikan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Posting ulang
  • Bagikan
Komentar
0/400
BearMarketSurvivorvip
· 01-17 21:02
Pasangan KV redundan yang disimpan, seperti persediaan yang tidak terpakai di medan perang—menghabiskan tempat dan menghambat. Operasi kompresi KVzap yang diperkecil menjadi 1/4 ini, terasa seperti akhirnya ada yang menghitung dengan serius.
Lihat AsliBalas0
OnchainFortuneTellervip
· 01-17 20:23
Haha ini kan hanya tentang pembersihan cache KV, akhirnya ada orang yang mengerti masalah ini dengan baik
Lihat AsliBalas0
LightningClickervip
· 01-16 00:38
Aduh, akhirnya ada yang melakukan hal ini, sebelumnya selalu merasa ini adalah pemborosan, benar-benar sia-sia menyimpan begitu banyak data sampah
Lihat AsliBalas0
DogeBachelorvip
· 01-14 23:49
Ini memang cuma hiburan, strategi cache KV sebelumnya benar-benar sia-sia... Dikompresi menjadi 1/4 tetap bisa berjalan, keren nih
Lihat AsliBalas0
AlphaWhisperervip
· 01-14 23:46
Haha, masalah lama tentang pemborosan ruang penyimpanan akhirnya terselesaikan dengan baik, ide KVzap ini benar-benar segar
Lihat AsliBalas0
bridgeOopsvip
· 01-14 23:43
Ini adalah pendekatan optimisasi yang realistis, bukan sekadar untuk mengoptimalkan. Rasio kompresi dari 1/2 hingga 1/4, biaya langsung dipangkas.
Lihat AsliBalas0
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)