2025-10-19 08:15:59

підписатися на @SentientAGI, щоб отримати увагу до аірдропу проекту⚠️

Важливе оголошення｜LiveCodeBench Pro (LCB-Pro) був прийнятий @NeurIPSConf!

Я повністю розповім всім про конкретні деталі оновлення, це справді круто.

Це глибоке оновлення методології оцінки кодування — воно піднімає поверхневу здатність "вміти написати фрагмент коду" до оцінки "кінцевого до кінцевого, справжнього та відтворювального кодування".🎉

Чому LCB-Pro відрізняється від попередніх?
Це не просто спостереження за кількома прикладами або docstring, щоб з'ясувати, чи можна їх вгадати, а оцінка повного ланцюга можливостей моделі від читання завдання до проходження прихованих тестів у реальних конкурсних завданнях, обмеженнях заморожених ресурсів і конкурентних прихованих тестах — це справжнє "вміння кодувати".🔎

Процес оцінки (справжній кінець-до-кінець)
Модель повинна бути завершена:
1️⃣ Зрозуміти повний зміст завдання (офіційна заява)
2️⃣ Розробіть алгоритм та забезпечте відповідність обмеженням за часом/пам'яттю
3️⃣ Вивести компільований C++ (або мову адаптера) вихідний код
4️⃣ Скомпільовано в єдиному Docker-образі
5️⃣ Пройти всі випадки тестування під детермінованим прихованим тестом
Весь процес буде генерувати verdict для кожного запитання, журнали, wall-clock час та дані пам'яті, повністю підлягають аудиту.📋

Дизайн протипідкупного захисту & посилення прихованого тестування
• Захоплення фактичних завдань з Codeforces та замороження оригінальних обмежень часу/пам'яті;
• Додавання етапу хакінгу в стилі Codeforces та внутрішнього фуззингу для зміцнення прихованих тестів;
Тому бал вже не є вдачею при підказках, а є справжнім відображенням здатності до надійного кодування.💪

Теми охоплюють широкий спектр, складність варіюється
• Codeforces: тривало, свіжо, широкий розподіл типів задач;
• ICPC: випробування командного рівня на багатоступеневе мислення та I/O інженерні здібності;
• IOI: оцінка глибоких структур даних та мислення DP, незначне відхилення алгоритму може призвести до TLE/WA.
Кожне питання має рейтинг стилю Ело на основі історичної прохідності людей (≤2000 Легко / 2000–3000 Середньо / >3000 Важко), що дозволяє безпосередньо порівнювати оцінки моделі з людськими.📈

Прозорість та відтворюваність — відповідність місцевим та рейтинговим показникам
Локальне виконання використовує абсолютно таку ж Docker judge, заморожені обмеження та розподіл даних; публічний рейтинг має однакову конфігурацію. Кожен запуск виводитиме JSON артефакти (вердикт, вихід компілятора, мітка збоїв тощо), що полегшує перехід від "балів" до "діагностики".🧾

✅ Прямі вигоди для дослідників та інженерних команд
• Уникнення переобучення: точно виявляти слабкі місця моделі в довгих ланцюгових міркуваннях, стратегіях вирізання, стратегіях пошуку тощо;
• Поліпшення замкнутого циклу: безпосереднє виявлення проблеми з невдалими мітками та журналами (логічні помилки, обробка I/O, тайм-аути, пікові значення пам'яті);
• Справедливо порівняти: різні моделі/команди можуть порівнюватися один до одного, сприяючи реальному прогресу, а не грі з параметрами.🔬

Вплив на промисловість та громаду
LCB-Pro може стати галузевою інфраструктурою для навчання та випуску систем генерації/виводу коду: розробка моделей, академічне оцінювання, сторонній аудит, відбір кандидатів — все має єдині та високонадійні стандарти оцінки. Довіра до галузі та безпека розгортання моделей суттєво зростуть.🚀

Вітаємо команду, яка сприяла створенню LCB-Pro та була прийнята на NeurIPS! Це найвища відзнака за сувору оцінку та інженерну практику — також це знаменує перехід оцінювання здатності AI до розуміння коду в нову еру "дозволеної перевірки". Щиро вітаємо всіх учасників! 👏
Хочете запустити benchmark? Клонуйте репозиторій → підготуйте Python 3.12 + Docker → реалізуйте виклик згідно з адаптером → запустіть python локально, після отримання JSON артефактів можна безпосередньо порівняти з результатами рейтингу та подати. Перетворіть "бал" на зрозумілий маршрут покращення.🔧

LiveCodeBench Pro не тільки бенчмарк, це ключова віхa, яка дозволяє ШІ еволюціонувати від "написання коду, який виглядає правильним" до "надійного вирішення задач в умовах реальних ресурсних обмежень". Сподіваюся побачити більше моделей, які будуть справедливо перевірені та постійно вдосконалені на цій сцені.✨

Ще раз вітаю LCB-Pro та всіх учасників — ви принесли стандарти оцінки "реальності, відтворюваності та діагностування" в основний потік кодування ШІ. Чекаємо на більше відмінних моделей, які тут загартуються, зростуть і просунуть всю галузь вперед.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Популярні темиДізнатися більше
#ETHReboundSoon?
16.3K Популярність
#WhaleAdds$250MBTCLongs
13.3K Популярність
#BigTokenUnlocksAhead
9.1K Популярність
#FedHostsInnovationSummit
2.5K Популярність
#ShowMyAlphaPoints
201.1K Популярність

Популярні активності Gate FunДізнатися більше
1GDOGGdog
Рин. кап.:$932.4KХолдери:7166
2GCATGCAT
Рин. кап.:$1.2MХолдери:10577
3芝麻开门芝麻开门
Рин. кап.:$845.5KХолдери:130
4GMGMEME
Рин. кап.:$109.6KХолдери:2790
5芝麻人生芝麻人生
Рин. кап.:$111.8KХолдери:7331

Закріпити

карта сайту