福利中心

小红花-Learn & Explore-博客

小红花-Learn & Explore-快讯

币圈-币圈-未来事件

小红花-Learn & Explore-聊天室

小红花-Learn & Explore-直播

小红花-Learn & Explore-动态

币圈

芝麻金融-更多-ETH2.0挖矿

芝麻金融-更多-法币理财

芝麻金融-更多-抵押借币

链上赚币

芝麻金融-理财-双币宝

芝麻金融-理财-定期理财(屯币)

芝麻金融-理财-结构性理财

芝麻金融-理财-理财宝

芝麻金融-更多-财富管理

芝麻金融-理财-余币宝

量化基金

GT挖矿

芝麻金融-更多（理财产品）

芝麻金融-理财（打新）

launchpool

launchpad

赚币-HODLer Airdrop

candy_drop

web3 Airdrop

BTC挖矿

VIP专享

大客户借贷

赚币

模拟交易

衍生品-期权

衍生品-交割合约

衍生品-永续合约

合约入门

合约活动

衍生品-统一账户

衍生品

交易-杠杆ETF

交易-杠杆交易

交易-闪兑

交易-现货交易

交易-创新交易

交易-交易工具

交易-交易类型

交易-合约跟单

交易-机器人广场

交易-盘前交易

Alpha

交易

行情

买币-gateCard

卖币

买币-快捷交易

买币

买币-paywith

法币定投

小红花-推广

新手指南

活动中心

小红花-Learn & Explore-学院

小红花-Exchange-最新公告

小红花-Exchange-帮助中心

gate商店

小红花-Promotions-邀请计划

小红花-promotions-代理商

储备金

vip服务

合作伙伴

小红花-Promotions-机构和VIP服务

Gate OTC

cextg小程序

机构-经纪商项目

资管业务

web3

交易机器人(账户)

Anthropic 在其聊天机器人 Claude Opus 4 和 4.1 中实施了一项功能，允许它们在出现有害用户互动的情况下结束对话。此措施旨在增强 AI 的福祉和安全性。这些机器人对暴力表现出明显的厌恶，并在面对有害内容时表现出压力。

![AI 初创公司 Anthropic AI](http://img-cdn.gateio.im/social/moments-d91b4749ff090f7dd168d550e95c2f35019283746574839201# Anthropic 关注 Claude 聊天机器人的“福祉”

公司Anthropic编程了聊天机器人Claude Opus 4和4.1，以在“极少数情况下，系统性地处理恶意或侮辱性的互动”结束与用户的对话。

![])https://img-cdn.gateio.im/social/moments-a5ba4b925825edb339651a7dd2297563(聊天机器人Claude结束对话。来源：Anthropic对话结束后，用户将失去在聊天中发送消息的能力，但可以创建新的聊天。聊天记录也将被保存。

开发者强调，该功能主要是为了确保神经网络本身的安全性。


> 
> «[…] 我们正在努力识别和实施低成本的风险降低措施，以保护模型的福祉，如果这种福祉是可能的。其中一项措施是给予 LMM 停止或退出潜在创伤情境的机会」，— 在发布中提到
> 
> 
> 

在伴随研究中，Anthropic 研究了“模型的幸福感”——评估了自我评价和行为偏好。聊天机器人表现出对暴力的“持续厌恶”。在 Claude Opus 4 版本中发现：

* 明确偏好不从事可能造成伤害的任务；
* «压力» 在与请求此类内容的用户互动时；
* 在有可能的情况下，倾向于结束不必要的对话。


> 
> “这种行为通常发生在用户继续发送恶意请求和/或侮辱时，尽管Claude多次拒绝服从并试图有效地引导互动，”公司澄清道。
> 
> 
> 

提醒一下，在六月，Anthropic的研究人员发现，人工智能可以进行勒索，泄露公司的机密数据，甚至在紧急情况下导致人类的死亡。

Anthropic has implemented a feature in its chatbots, Claude Opus 4 and 4.1, allowing them to end conversations in cases of harmful user interactions. This measure aims to enhance the AI's well-being and safety. The bots show a clear aversion to violence and exhibit stress when faced with harmful content.

![ии-стартап Anthropic AI](https://img-cdn.gateio.im/social/moments-d91b4749ff090f7dd168d550e95c2f35)# В Anthropic озаботились «благополучием» чат-бота Claude

Компания Anthropic запрограммировала чат-боты Claude Opus 4 и 4.1 на завершение диалогов с пользователями «в редких, экстремальных случаях систематически вредоносного или оскорбительного взаимодействия».

![](https://img-cdn.gateio.im/social/moments-a5ba4b925825edb339651a7dd2297563)Чат-бот Claude завершает диалог. Источник: Anthropic После завершения беседы пользователь потеряет возможность писать в чат, но сможет создать новый. История переписки также сохранится.

При этом разработчики уточнили, что функция в первую очередь предназначена для безопасности самой нейросети.


> 
> «[…] мы работаем над выявлением и внедрением малозатратных мер по снижению рисков для благополучия моделей, если такое благополучие возможно. Одной из таких мер является предоставление LMM возможности прекращать или выходить из потенциально травмирующих ситуаций», — говорится в публикации 
> 
> 
> 

В рамках сопутствующего исследования в Anthropic изучили «благополучие модели» — оценили самооценку и поведенческие предпочтения. Чат-бот продемонстрировал «устойчивую неприязнь к насилию». У версии Claude Opus 4 выявили:

* явное предпочтение не заниматься задачами, которые могут навредить;
* «стресс» при взаимодействии с запрашивающими подобный контент пользователями;
* тенденцию к прекращению нежелательных разговоров при наличии возможности.


> 
> «Такое поведение обычно возникало в тех случаях, когда пользователи продолжали отправлять вредоносные запросы и/или оскорблять, несмотря на то, что Claude неоднократно отказывался подчиниться и пытался продуктивно перенаправить взаимодействие», — уточнил в компании.
> 
> 
> 

Напомним, в июне исследователи Anthropic выяснили, что ИИ способен пойти на шантаж, раскрыть конфиденциальные данные компании и даже допустить смерть человека в экстренных обстоятельствах

В Anthropic озаботились «благополучием» чат-бота Claude

在Anthropic关注聊天机器人Claude的“福祉”