.@SentientAGI剛剛重新定義了模型安全性!
現在可以在開放權重模型中嵌入數萬條持久指紋,而不會影響性能,從而大規模解鎖來源、許可和貨幣化。
傳統的指紋識別方法無法處理超過~100個密鑰,否則模型會崩潰、變得可檢測或失去可靠性。Sentient的OML 1.0改變了這一點。
他們將24,576個獨特的指紋嵌入Llama-3.1-8B中,且沒有任何效用損失。這些密鑰在微調、混合、蒸餾甚至合謀嘗試中始終保持隱形,在正常使用中保持不可見,同時通過挑戰響應保持可驗證性。
這一突破來自於Perinucleus (逆核)採樣,這是一種從模型的原生代幣分布中生成自然、低衝突指紋的方法。這使得指紋在人類可行的範圍內且相互獨立,從而允許數千個指紋共存而不相互幹擾。
OML 1.0 還使用了針對性的微調、模型混合、良性數據融合和參數擴展,使指紋既耐用又不具幹擾性。
結果:經過微調、政策對齊,甚至合並後存活下來的指紋,爲開放模型在規模上提供了真正的身分、許可和來源路徑。
查看原文