Cursor розкриває метод тренування «самозавантаження»: використання старого Composer для створення середовища нової моделі, Terminal-Bench підвищився на 14 пунктів

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, Cursor опублікував один з тренувальних прийомів серії моделей Composer: автоматичне створення робочого середовища для підкріплювального навчання (RL) за допомогою попередньої моделі для наступної. Під час тренування Composer 2, Cursor використовував Composer 1.5 для виконання цієї задачі, називаючи це autoinstall. RL-тренування потребує робочого коду. Якщо середовище налаштоване погано, модель витрачає токени на пошук помилок, і нічого не навчається; у крайніх випадках середовище зовсім не працює, і обчислювальні ресурси витрачаються даремно. autoinstall вирішує цю проблему у два кроки: перший — агент читає документацію та конфігурацію коду, пропонуючи 10 команд для перевірки та очікуваний результат; другий — інший агент бере 3 з цих команд і з нуля налаштовує середовище до тих пір, поки команда не запуститься. Другий крок має максимум 5 спроб, у разі повного провалу середовище відкидається. Під час налаштування середовища агент активно доповнює відсутні залежності: фальшиві таблиці баз даних, створює конфігурацію MinIO як заміну S3, запускає Docker-контейнери для ролі сайдкар сервісів, навіть генерує заповнювачі зображень. У статті на прикладі блокчейн-проекту celo-org/celo-monorepo демонструється весь процес: після невдачі на першому етапі агент у другому самостійно створює мок-юзерів для обходу автентифікації і врешті-решт успішно запускає тест. Composer 2 у тесті Terminal-Bench (базовий тест здатності моделі створювати робоче середовище) отримав 61,7%, що на близько 14 відсоткових пунктів вище за Composer 1.5 з 47,9%. Cursor заявляє, що у майбутньому планує залучати стару версію Composer до більшої кількості етапів тренування, включаючи попередню обробку даних, управління запуском та оптимізацію архітектури.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити