OpenAI выпускает CoT Monitoring, чтобы остановить вредоносное поведение больших моделей

DailyNews

Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев