谷歌推出压缩算法TurboQuant,宣称實現約6倍内存节省

robot
摘要生成中

谷歌推出一种可能降低人工智能系統内存需求的压缩算法TurboQuant。TurboQuant压缩技术旨在降低大語言模型和向量搜索引擎的内存占用。该算法主要针對AI系統中用于存储高頻访問信息的键值缓存(key-value cache)瓶颈問题。隨着上下文窗口变大,這些缓存正成為主要的内存瓶颈。TurboQuant可在無需重新训练或微調模型的情况下,将键值缓存压缩至3bit精度,同時基本保持模型准确率不受影响。對包括Gemma等開源模型的测试显示,该技术可實現約6倍的键值缓存内存压缩效果。(財联社)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言