следовать @SentientAGI хотите получить аирдроп проекта, обратите внимание⚠️



Важное объявление|LiveCodeBench Pro (LCB-Pro) принят @NeurIPSConf!

Я полностью расскажу вам о конкретных содержании обновления. Это действительно круто.

Это глубокое обновление методологии оценки кодирования — оно поднимает поверхностные способности "уметь писать фрагменты кода" к оценке "конечного результата, реально воспроизводимого кодирования".🎉

Почему LCB-Pro отличается от предыдущих версий?
Это не просто вопрос того, можно ли угадать по нескольким примерам или docstring, а оценка полной цепочки возможностей модели от чтения задачи до успешного прохождения скрытого теста в условиях реальных конкурсных задач, ограничений замораживаемых ресурсов и противодействующих скрытых тестов — вот что на самом деле означает "уметь кодировать".🔎

Процесс оценки (настоящий end-to-end)
Модель должна быть завершена:
1️⃣ Понять полное значение задания (официальное заявление)
2️⃣ Разработайте алгоритм и убедитесь, что он соответствует ограничениям по времени/памяти
3️⃣ Вывод可编译的 C++(или языка адаптера)исходного кода
4️⃣ Скомпилировано успешно в едином Docker-образе
5️⃣ Пройти все тестовые случаи под детерминированным скрытым тестом
Весь процесс будет производить verdict для каждого вопроса, журналы, wall-clock время и данные о памяти, полностью подлежащие аудиту.📋

Защита от мошенничества & Укрепление скрытого тестирования
• Захватить реальные задачи Codeforces и заморозить оригинальные ограничения по времени/памяти;
• Добавление этапа хакерства в стиле Codeforces и внутреннего фуззинга для усиления скрытого тестирования;
Таким образом, баллы больше не зависят от удачи в подсказках, а являются истинным отражением устойчивых навыков кодирования.💪

Широкий охват тем, полный спектр сложности
• Codeforces: постоянный, свежий, широкий спектр типов задач;
• ICPC: испытание командного уровня многошагового вывода и инженерных навыков I/O;
• IOI: Оценка глубоких структур данных и мышления DP, небольшое отклонение в алгоритме может привести к TLE/WA.
Каждый вопрос также имеет рейтинг в стиле Эло, основанный на историческом проценте прохождения людьми (≤2000 Легкий / 2000–3000 Средний / >3000 Сложный), что позволяет напрямую сравнивать оценки модели с оценками людей.📈

Прозрачность и воспроизводимость — соответствие локальному и рейтинговому.
Локальный запуск использует точно такой же Docker judge, замороженные ограничения и разделение данных; публичный рейтинг использует единообразную конфигурацию. Каждый запуск будет выводить JSON артефакты (вердикт, вывод компилятора, метка ошибки и т.д.), что облегчает переход от "оценки" к "диагностике".🧾

✅ Прямые преимущества для исследователей и инженерных команд
• Советы по избеганию переобучения: точно выявить слабые стороны модели в области долгих цепочек рассуждений, стратегий обрезки, стратегий поиска и т.д.;
• Улучшение замкнутого цикла: прямое выявление проблем из меток ошибок и журналов (логические ошибки, обработка I/O, тайм-ауты, пиковая память);
• Честное сравнение: различные модели/команды могут сравниваться по принципу apples-to-apples, продвигая реальные достижения, а не игру с параметрами.🔬

Влияние на индустрию и сообщество
LCB-Pro может стать отраслевой инфраструктурой для обучения и выпуска систем генерации/вывода кода: разработка моделей, академическая оценка, сторонний аудит, отбор кадров — все это получило единообразные и высоконадёжные стандарты оценки. Доверие к отрасли и безопасность развертывания моделей существенно возрастут. 🚀

В честь команды, способствовавшей созданию LCB-Pro и принятой NeurIPS! Это высшее признание строгой оценки и инженерной практики — также это знаменует собой переход оценки способности понимания AI кода в новую эпоху "зрелых и проверяемых". Поздравляем всех участников! 👏
Хотите запустить benchmark? Клонируйте репозиторий → Подготовьте Python 3.12 + Docker → Реализуйте вызов в соответствии со стандартом adapter → Запустите python локально, после получения JSON артефакта вы сможете сразу сравнить и отправить результаты в таблицу лидеров. Превратите "баллы" в объяснимый план улучшений.🔧

LiveCodeBench Pro не просто бенчмарк, это ключевая веха, позволяющая ИИ эволюционировать от «написания кода, который выглядит правильно» к «надежному решению задач в условиях реальных ресурсных ограничений». С нетерпением ждем, когда больше моделей будут справедливо проверены и постоянно оттачиваться на этой сцене.✨

Снова поздравляю LCB-Pro и всех участников — вы принесли стандарты оценки "реального, воспроизводимого и диагностируемого" в мейнстрим кодирования ИИ. С нетерпением жду появления большего количества优秀模型, которые здесь будут закаливаться, расти и продвигать всю область вперед.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить