Lightbits,AI推理效率化创新降低云成本

robot
摘要生成中

科技产业的进步正通过人工智能(AI)领域的创新加速推进。Lightbits Labs近日发布了一项旨在解决大规模AI推理中内存瓶颈问题的新架构。该架构通过与ScaleFlux和FarmGPU合作开发,结合了非易失性内存快速存储、GPU推理基础设施以及Lightbits的软件,帮助AI系统更高效地管理推理过程中生成的数据缓存。

在云运营商处理推理任务时正感受到成本压力的背景下,此次发布预计将是个好消息。GPU的高昂成本已成为占据运营大部分支出的问题,为改善此状况,Lightbits设定了优化GPU利用率的目标。

Lightbits的新平台通过增加单台GPU可处理的请求数量来增强推理效率。这直接转化为单次处理成本的降低,意义重大。据Lightbits测试结果显示,其在相同GPU上将处理请求数提升至三倍的同时,成功将电力与基础设施成本降低了65%。

此解决方案的核心在于"KV缓存"。该缓存存储推理过程中生成的中间向量,通过复用先前计算结果避免不必要的运算。但随着模型规模的扩大,缓存容量也在急剧增长。内存需求量每年以两倍以上的速度递增,长期来看需要多方努力解决此问题。为此,Lightbits引入了通过预测数据移动、预先向GPU提供所需信息的创新方法。

LightInferra系统能跨内存层级管理并加速数据移动,其设计确保GPU无需等待数据。该系统可在不超过GPU内存容量的限度内保障推理流程的顺畅运行。云服务商可借此设计优化GPU使用率,或在现有基础设施内提升总体处理能力。该架构正与NeoCloud合作,计划于7月起投入生产部署。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论