следовать @SentientAGI хотите получить аирдроп проекта, обратите внимание⚠️
Важное объявление|LiveCodeBench Pro (LCB-Pro) принят @NeurIPSConf!
Я полностью расскажу вам о конкретных содержании обновления. Это действительно круто.
Это глубокое обновление методологии оценки кодирования — оно поднимает поверхностные способности "уметь писать фрагменты кода" к оценке "конечного результата, реально воспроизводимого кодирования".🎉
Почему LCB-Pro отличается от предыдущих версий? Это не просто вопрос того, можно ли угадать по нескольким примерам или docstring, а оценка полной цепочки возможностей модели от чтения задачи до успешного прохождения скрытого теста в условиях реальных конкурсных задач, ограничений замораживаемых ресурсов и противодействующих скрытых тестов — вот что на самом деле означает "уметь кодировать".🔎
Процесс оценки (настоящий end-to-end) Модель должна быть завершена: 1️⃣ Понять полное значение задания (официальное заявление) 2️⃣ Разработайте алгоритм и убедитесь, что он соответствует ограничениям по времени/памяти 3️⃣ Вывод可编译的 C++(или языка адаптера)исходного кода 4️⃣ Скомпилировано успешно в едином Docker-образе 5️⃣ Пройти все тестовые случаи под детерминированным скрытым тестом Весь процесс будет производить verdict для каждого вопроса, журналы, wall-clock время и данные о памяти, полностью подлежащие аудиту.📋
Защита от мошенничества & Укрепление скрытого тестирования • Захватить реальные задачи Codeforces и заморозить оригинальные ограничения по времени/памяти; • Добавление этапа хакерства в стиле Codeforces и внутреннего фуззинга для усиления скрытого тестирования; Таким образом, баллы больше не зависят от удачи в подсказках, а являются истинным отражением устойчивых навыков кодирования.💪
Широкий охват тем, полный спектр сложности • Codeforces: постоянный, свежий, широкий спектр типов задач; • ICPC: испытание командного уровня многошагового вывода и инженерных навыков I/O; • IOI: Оценка глубоких структур данных и мышления DP, небольшое отклонение в алгоритме может привести к TLE/WA. Каждый вопрос также имеет рейтинг в стиле Эло, основанный на историческом проценте прохождения людьми (≤2000 Легкий / 2000–3000 Средний / >3000 Сложный), что позволяет напрямую сравнивать оценки модели с оценками людей.📈
Прозрачность и воспроизводимость — соответствие локальному и рейтинговому. Локальный запуск использует точно такой же Docker judge, замороженные ограничения и разделение данных; публичный рейтинг использует единообразную конфигурацию. Каждый запуск будет выводить JSON артефакты (вердикт, вывод компилятора, метка ошибки и т.д.), что облегчает переход от "оценки" к "диагностике".🧾
✅ Прямые преимущества для исследователей и инженерных команд • Советы по избеганию переобучения: точно выявить слабые стороны модели в области долгих цепочек рассуждений, стратегий обрезки, стратегий поиска и т.д.; • Улучшение замкнутого цикла: прямое выявление проблем из меток ошибок и журналов (логические ошибки, обработка I/O, тайм-ауты, пиковая память); • Честное сравнение: различные модели/команды могут сравниваться по принципу apples-to-apples, продвигая реальные достижения, а не игру с параметрами.🔬
Влияние на индустрию и сообщество LCB-Pro может стать отраслевой инфраструктурой для обучения и выпуска систем генерации/вывода кода: разработка моделей, академическая оценка, сторонний аудит, отбор кадров — все это получило единообразные и высоконадёжные стандарты оценки. Доверие к отрасли и безопасность развертывания моделей существенно возрастут. 🚀
В честь команды, способствовавшей созданию LCB-Pro и принятой NeurIPS! Это высшее признание строгой оценки и инженерной практики — также это знаменует собой переход оценки способности понимания AI кода в новую эпоху "зрелых и проверяемых". Поздравляем всех участников! 👏 Хотите запустить benchmark? Клонируйте репозиторий → Подготовьте Python 3.12 + Docker → Реализуйте вызов в соответствии со стандартом adapter → Запустите python локально, после получения JSON артефакта вы сможете сразу сравнить и отправить результаты в таблицу лидеров. Превратите "баллы" в объяснимый план улучшений.🔧
LiveCodeBench Pro не просто бенчмарк, это ключевая веха, позволяющая ИИ эволюционировать от «написания кода, который выглядит правильно» к «надежному решению задач в условиях реальных ресурсных ограничений». С нетерпением ждем, когда больше моделей будут справедливо проверены и постоянно оттачиваться на этой сцене.✨
Снова поздравляю LCB-Pro и всех участников — вы принесли стандарты оценки "реального, воспроизводимого и диагностируемого" в мейнстрим кодирования ИИ. С нетерпением жду появления большего количества优秀模型, которые здесь будут закаливаться, расти и продвигать всю область вперед.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
следовать @SentientAGI хотите получить аирдроп проекта, обратите внимание⚠️
Важное объявление|LiveCodeBench Pro (LCB-Pro) принят @NeurIPSConf!
Я полностью расскажу вам о конкретных содержании обновления. Это действительно круто.
Это глубокое обновление методологии оценки кодирования — оно поднимает поверхностные способности "уметь писать фрагменты кода" к оценке "конечного результата, реально воспроизводимого кодирования".🎉
Почему LCB-Pro отличается от предыдущих версий?
Это не просто вопрос того, можно ли угадать по нескольким примерам или docstring, а оценка полной цепочки возможностей модели от чтения задачи до успешного прохождения скрытого теста в условиях реальных конкурсных задач, ограничений замораживаемых ресурсов и противодействующих скрытых тестов — вот что на самом деле означает "уметь кодировать".🔎
Процесс оценки (настоящий end-to-end)
Модель должна быть завершена:
1️⃣ Понять полное значение задания (официальное заявление)
2️⃣ Разработайте алгоритм и убедитесь, что он соответствует ограничениям по времени/памяти
3️⃣ Вывод可编译的 C++(или языка адаптера)исходного кода
4️⃣ Скомпилировано успешно в едином Docker-образе
5️⃣ Пройти все тестовые случаи под детерминированным скрытым тестом
Весь процесс будет производить verdict для каждого вопроса, журналы, wall-clock время и данные о памяти, полностью подлежащие аудиту.📋
Защита от мошенничества & Укрепление скрытого тестирования
• Захватить реальные задачи Codeforces и заморозить оригинальные ограничения по времени/памяти;
• Добавление этапа хакерства в стиле Codeforces и внутреннего фуззинга для усиления скрытого тестирования;
Таким образом, баллы больше не зависят от удачи в подсказках, а являются истинным отражением устойчивых навыков кодирования.💪
Широкий охват тем, полный спектр сложности
• Codeforces: постоянный, свежий, широкий спектр типов задач;
• ICPC: испытание командного уровня многошагового вывода и инженерных навыков I/O;
• IOI: Оценка глубоких структур данных и мышления DP, небольшое отклонение в алгоритме может привести к TLE/WA.
Каждый вопрос также имеет рейтинг в стиле Эло, основанный на историческом проценте прохождения людьми (≤2000 Легкий / 2000–3000 Средний / >3000 Сложный), что позволяет напрямую сравнивать оценки модели с оценками людей.📈
Прозрачность и воспроизводимость — соответствие локальному и рейтинговому.
Локальный запуск использует точно такой же Docker judge, замороженные ограничения и разделение данных; публичный рейтинг использует единообразную конфигурацию. Каждый запуск будет выводить JSON артефакты (вердикт, вывод компилятора, метка ошибки и т.д.), что облегчает переход от "оценки" к "диагностике".🧾
✅ Прямые преимущества для исследователей и инженерных команд
• Советы по избеганию переобучения: точно выявить слабые стороны модели в области долгих цепочек рассуждений, стратегий обрезки, стратегий поиска и т.д.;
• Улучшение замкнутого цикла: прямое выявление проблем из меток ошибок и журналов (логические ошибки, обработка I/O, тайм-ауты, пиковая память);
• Честное сравнение: различные модели/команды могут сравниваться по принципу apples-to-apples, продвигая реальные достижения, а не игру с параметрами.🔬
Влияние на индустрию и сообщество
LCB-Pro может стать отраслевой инфраструктурой для обучения и выпуска систем генерации/вывода кода: разработка моделей, академическая оценка, сторонний аудит, отбор кадров — все это получило единообразные и высоконадёжные стандарты оценки. Доверие к отрасли и безопасность развертывания моделей существенно возрастут. 🚀
В честь команды, способствовавшей созданию LCB-Pro и принятой NeurIPS! Это высшее признание строгой оценки и инженерной практики — также это знаменует собой переход оценки способности понимания AI кода в новую эпоху "зрелых и проверяемых". Поздравляем всех участников! 👏
Хотите запустить benchmark? Клонируйте репозиторий → Подготовьте Python 3.12 + Docker → Реализуйте вызов в соответствии со стандартом adapter → Запустите python локально, после получения JSON артефакта вы сможете сразу сравнить и отправить результаты в таблицу лидеров. Превратите "баллы" в объяснимый план улучшений.🔧
LiveCodeBench Pro не просто бенчмарк, это ключевая веха, позволяющая ИИ эволюционировать от «написания кода, который выглядит правильно» к «надежному решению задач в условиях реальных ресурсных ограничений». С нетерпением ждем, когда больше моделей будут справедливо проверены и постоянно оттачиваться на этой сцене.✨
Снова поздравляю LCB-Pro и всех участников — вы принесли стандарты оценки "реального, воспроизводимого и диагностируемого" в мейнстрим кодирования ИИ. С нетерпением жду появления большего количества优秀模型, которые здесь будут закаливаться, расти и продвигать всю область вперед.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI