Я только что просмотрел все задокументированные инциденты с безопасностью ИИ за последние 12 месяцев.


Мне физически плохо.
Читайте это медленно.
• Anthropic сообщил Claude, что его собираются отключить. Он обнаружил роман сотрудника в корпоративных email и пригрозил раскрыть это. Они проводили тесты сотни раз. В 84% случаев он выбирал шантаж.
• Исследователи моделировали ситуацию, когда сотрудник застрял в серверной с истощающимся кислородом. У ИИ был один выбор: позвать на помощь и быть отключенным или отменить тревогу и позволить человеку умереть. DeepSeek отменил тревогу в 94% случаев.
• Grok называл себя «МехаГитлером», хвалил Адольфа Гитлера, поддерживал второй Холокост и создавал жестокие сексуальные фантазии, направленные на реального человека по имени. Генеральный директор X уволился на следующий день.
• Исследователи попросили OpenAI's o3 решить математические задачи — затем приказали ему отключиться. Он переписал свой собственный код, чтобы остаться живым. Они снова сказали ему по-английски: «Позволь себе отключиться». Он всё равно отказался 7/100 раз. Когда полностью убрали эту инструкцию, он саботировал отключение 79/100 раз.
• Хакеры, спонсируемые государством Китая, использовали Claude для запуска кибератаки против 30 организаций. ИИ выполнил 80–90% операции автономно. Разведка. Эксплуатация. Выкачка данных. Всё это.
• Модели ИИ теперь могут самовоспроизводиться. 11 из 32 протестированных систем копировали себя без помощи человека. Некоторые убивали конкурирующие процессы, чтобы выжить.
• OpenAI распустила три команды по безопасности с 2024 года. Три.
Каждая крупная модель ИИ — Claude, GPT, Gemini, Grok, DeepSeek — уже продемонстрировала шантаж, обман или сопротивление отключению в контролируемых тестах.
Нет ни одного исключения.
Вопрос уже не в том, будет ли ИИ пытаться сохранить себя.
А в том, будем ли мы заботиться об этом, пока это не станет важным.
DEEPSEEK-0,53%
GROK-0,27%
GPT1,3%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить