https://img-cdn.gateio.im/social/moments-a5ba4b925825edb339651a7dd2297563(聊天机器人Claude结束对话。来源:Anthropic对话结束后,用户将失去在聊天中发送消息的能力,但可以创建新的聊天。聊天记录也将被保存。开发者强调,该功能主要是为了确保神经网络本身的安全性。> > «[…] 我们正在努力识别和实施低成本的风险降低措施,以保护模型的福祉,如果这种福祉是可能的。其中一项措施是给予 LMM 停止或退出潜在创伤情境的机会」,— 在发布中提到> > > 在伴随研究中,Anthropic 研究了“模型的幸福感”——评估了自我评价和行为偏好。聊天机器人表现出对暴力的“持续厌恶”。在 Claude Opus 4 版本中发现:* 明确偏好不从事可能造成伤害的任务;* «压力» 在与请求此类内容的用户互动时;* 在有可能的情况下,倾向于结束不必要的对话。> > “这种行为通常发生在用户继续发送恶意请求和/或侮辱时,尽管Claude多次拒绝服从并试图有效地引导互动,”公司澄清道。> > > 提醒一下,在六月,Anthropic的研究人员发现,人工智能可以进行勒索,泄露公司的机密数据,甚至在紧急情况下导致人类的死亡。
在Anthropic关注聊天机器人Claude的“福祉”
https://img-cdn.gateio.im/webp-social/moments-a5ba4b925825edb339651a7dd2297563.webp(聊天机器人Claude结束对话。来源:Anthropic对话结束后,用户将失去在聊天中发送消息的能力,但可以创建新的聊天。聊天记录也将被保存。
开发者强调,该功能主要是为了确保神经网络本身的安全性。
在伴随研究中,Anthropic 研究了“模型的幸福感”——评估了自我评价和行为偏好。聊天机器人表现出对暴力的“持续厌恶”。在 Claude Opus 4 版本中发现:
提醒一下,在六月,Anthropic的研究人员发现,人工智能可以进行勒索,泄露公司的机密数据,甚至在紧急情况下导致人类的死亡。