.@SentientAGI刚刚重新定义了模型安全性!
现在可以在开放权重模型中嵌入数万条持久指纹,而不会影响性能,从而大规模解锁来源、许可和货币化。
传统的指纹识别方法无法处理超过~100个密钥,否则模型会崩溃、变得可检测或失去可靠性。Sentient的OML 1.0改变了这一点。
他们将24,576个独特的指纹嵌入Llama-3.1-8B中,且没有任何效用损失。这些密钥在微调、混合、蒸馏甚至合谋尝试中始终保持隐形,在正常使用中保持不可见,同时通过挑战响应保持可验证性。
这一突破来自于Perinucleus (逆核)采样,这是一种从模型的原生代币分布中生成自然、低冲突指纹的方法。这使得指纹在人类可行的范围内且相互独立,从而允许数千个指纹共存而不相互干扰。
OML 1.0 还使用了针对性的微调、模型混合、良性数据融合和参数扩展,使指纹既耐用又不具干扰性。
结果:经过微调、政策对齐,甚至合并后存活下来的指纹,为开放模型在规模上提供了真正的身份、许可和来源路径。
查看原文