關注@SentientAGI 想拿到項目空投的注意了⚠️



重大公告|LiveCodeBench Pro(LCB-Pro)被 @NeurIPSConf 接收!

我完整的給大家介紹一下具體的升級內容 真的很牛逼

這是對編碼推理評測方法學的一次深刻升級 —— 它把“會寫片段代碼”的表面能力,推向“端到端、真實可復現的編碼推理”評估。🎉

爲什麼 LCB-Pro 與以往不同?
它不是只看幾個示例或 docstring 能不能被猜到,而是在真實競賽題、凍結資源限制和對抗性隱藏測試下,評估模型從讀題到通過隱藏測試的完整能力鏈路——這才是真正的“會編碼”。🔎

評測流程(真正的端到端)
模型必須完成:
1️⃣ 讀懂完整題意(官方 statement)
2️⃣ 設計算法並保證符合時間/內存限制
3️⃣ 輸出可編譯的 C++(或 adapter 語言)源碼
4️⃣ 在統一 Docker 鏡像中編譯通過
5️⃣ 在確定性的隱藏測試下通過所有用例
整個流程會產出每題 verdict、日志、wall-clock 時間與內存數據,完全可審計。📋

防作弊設計 & 隱藏測試強化
• 抓取 Codeforces 的實際賽題並凍結原始 time/memory 限制;
• 增加 Codeforces 風格的 hack 階段與內部 fuzzing,用來硬化隱藏測試;
因此分數不再是 prompt 運氣,而是真正的魯棒編碼能力體現。💪

題源覆蓋廣、難度譜全
• Codeforces:持續、新鮮、題型分布廣;
• ICPC:考驗團隊級別的多步推理與 I/O 工程能力;
• IOI:考核深層數據結構與 DP 思維,輕微算法偏差就會 TLE/WA。
每道題還有基於歷史人類通過率的 Elo 風格評級(≤2000 Easy / 2000–3000 Medium / >3000 Hard),使模型評分可與人類直接對比。📈

透明與可復現 — 本地與排行榜一致
本地運行使用完全相同的 Docker judge、凍結的限制與數據拆分;公開排行榜採用一致配置。每次運行都會輸出 JSON 工件(verdict、compiler output、failure label 等),便於從“分數”走向“診斷”。🧾

✅ 對研究者與工程團隊的直接利好
• 避免過擬合提示技巧:準確揭示模型在長鏈推理、剪枝策略、搜索策略等方面的短板;
• 改進閉環:從失敗標籤和日志直接定位問題(邏輯錯誤、I/O 處理、超時、內存峯值);
• 公平比較:不同模型/團隊可以 apples-to-apples 比較,推進真實進步而不是調參遊戲。🔬

對產業與社區的影響
LCB-Pro 能成爲訓練和發布代碼生成/推理系統的行業基礎設施:模型研發、學術評測、第三方審計、招聘篩選——都有了統一且高可信的評測標準。行業信任度和模型部署安全性都會實質提升。🚀

向推動 LCB-Pro 成立與被 NeurIPS 接收的團隊致敬!這是對嚴謹評測與工程實踐的最高認可——也標志着 AI 代碼理解能力評估邁入“成熟可驗證”的新時代。向所有參與者熱烈祝賀!👏
想跑 benchmark?Clone 倉庫 → 準備 Python 3.12 + Docker → 按 adapter 規範實現調用 → python 本地跑一輪,拿到 JSON 工件後就能直接與排行榜結果比對與提交。把“分數”變成可解釋的改進路線。🔧

LiveCodeBench Pro 不僅是一個 benchmark,它是讓 AI 從“寫出看起來對的代碼”進化爲“在真實資源約束下可靠解題”的關鍵裏程碑。期待看到更多模型在這個舞臺上被公平檢驗與持續打磨。✨

再次祝賀 LCB-Pro 與所有貢獻者 —— 你們把“真實、可復現、可診斷”的評測標準帶進了編碼 AI 的主流視野。期待更多優秀模型在這裏淬煉、成長並推動整個領域向前。

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)