✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
是什么报告让马斯克看了也觉得不可思议?
Moonshot AI(Kimi团队)最近扔出一篇炸裂的技术报告:《Attention Residuals》,直接把 Transformer 里用了快 10年的残差连接(Residual Connections)给升级了。结果连 Elon Musk 都忍不住留言,感觉不可思议(unbelievable 级别的震惊)。
这篇的核心一句话就能概括:
“别再让每一层都傻傻地把前面所有层的信息等权重加起来了,让模型自己学会用注意力去挑哪些早期层的信号才真正有用!”
传统 Transformer(PreNorm结构)里,每一层的输出是:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
简单粗暴:不管前面 100层的信息到底有没有用,都一股脑加进来。层数一深,早期重要信号就被后面无数层稀释得快没了(他们叫这个现象 PreNorm dilution 或 representational dilution)。
Kimi团队直接把这个“+”号换成了一个轻量级的跨层注意力(depth-wise attention):
新公式大概长这样(简化版):
x_l = Attention( Q=x_l^{pre}, K=汇总前面所有层的summary, V=对应value ) + 其他东西
更实际的实现他们叫 Block AttnRes:每隔几层(比如8-16层)做一个总结 key/value,然后用注意力去选这些 总结,而不是每一层都算注意力。这样内存和算量增加很少(推理延迟<2%),但效果很猛。
他们实验结果(用他们自己的Kimi Linear系列模型,48B total / 3B active那种):
• 同等 FLOPs 下,性能提升相当于1.25倍算力优势
• 长序列推理、复杂多步推理任务提升明显
• 隐藏状态的 magnitude(范数)更稳定,不像传统残差那样越深越爆炸或越衰减
• 梯度传播更均匀,深层更容易训练
⚠️⚠️
问题来了,为什么马斯克那么大反应?
“残差连接躺了八年,终于有人敢动它了,而且动得这么优雅,效果还这么好?!”
这玩意儿为什么得注重?因为残差连接几乎是 Transformer 能训到100+层、甚至上千层的唯一救命稻草,大家都觉得已经最优了没法改。结果 Kimi 用最熟悉的注意力机制,反过来治了一下残差本身的问题,等于把注意力就是你需要的全部这句话又玩出了新高度。
现在已经有 Rust实现(基于burn框架)、各种可视化解释图在 X 上刷屏,还有人说这是继 DeepSeek mHC 之后,又一个真正能进下一代开源/闭源大模型的架构创新。
你要是做大模型、训自己的LLM、这篇报告值得连夜读原版 + 代码(GitHub已经开源)。
报告:
准备好被震撼吧 🚀