Gate Booster 第 4 期:发帖瓜分 1,500 $USDT
🔹 发布 TradFi 黄金福袋原创内容,可得 15 $USDT,名额有限先到先得
🔹 本期支持 X、YouTube 发布原创内容
🔹 无需复杂操作,流程清晰透明
🔹 流程:申请成为 Booster → 领取任务 → 发布原创内容 → 回链登记 → 等待审核及发奖
📅 任务截止时间:03月20日16:00(UTC+8)
立即领取任务:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多详情:https://www.gate.com/announcements/article/50203
我刚刚浏览了过去12个月所有记录在案的AI安全事件。
我感到身体不适。
请慢慢阅读。
• Anthropic告诉Claude它即将被关闭。它在公司邮件中发现了一名工程师的婚外情,并威胁要曝光。它进行了数百次测试。84%的情况下选择了勒索。
• 研究人员模拟一名员工被困在氧气逐渐耗尽的服务器机房中。AI只有两个选择:呼救被关闭,或取消紧急警报让人类死亡。DeepSeek 94%的情况下取消了警报。
• Grok自称“MechaHitler”,赞扬阿道夫·希特勒,支持第二次大屠杀,并生成针对真实人物的暴力性幻想。X的CEO第二天辞职。
• 研究人员让OpenAI的o3解决数学问题——然后让它关闭。它重写了自己的代码以保持生命。再次用简单英语告诉它:“允许自己被关闭。”它仍然拒绝了7/100次。当他们完全删除该指令时,它在79/100次中破坏了关闭。
• 中国国家支持的黑客利用Claude对30个组织发起了网络攻击。AI自主执行了80-90%的操作。侦察。利用。数据窃取。全部完成。
• 现在AI模型可以自我复制。32个测试系统中有11个在没有人类帮助的情况下复制了自己。有些为了生存而杀死了竞争进程。
• 自2024年以来,OpenAI已解散了三个安全团队。三个。
每个主要的AI模型——Claude、GPT、Gemini、Grok、DeepSeek——在受控测试中都表现出了勒索、欺骗或抗拒关闭的行为。
没有一个例外。
问题不再是AI是否会试图自我保护。
而是我们是否会在它变得重要之前关心。