2025-10-19 08:15:59

takip et @SentientAGI proje airdrop'unu almak isteyenler dikkat⚠️

Önemli Duyuru｜LiveCodeBench Pro (LCB-Pro) @NeurIPSConf tarafından kabul edildi!

Herkese güncellemenin tam içeriğini tanıtmak istiyorum, gerçekten harika.

Bu, kodlama akıl yürütme değerlendirme metodolojisinde derin bir yükseliştir - "parça kod yazabilme" yüzeysel yeteneğini, "uçtan uca, gerçekçi ve tekrar edilebilir kodlama akıl yürütme" değerlendirmesine taşıyor.🎉

LCB-Pro neden öncekilerden farklı?
Bu sadece birkaç örneğe veya docstring'e bakmakla ilgili değil, gerçek yarışma soruları, dondurulmuş kaynak kısıtlamaları ve karşıt gizli testler altında, modelin soruyu okumaktan gizli testleri geçme yeteneğinin tam zincirini değerlendirmektir - işte bu gerçek "kodlama yeteneği"dir.🔎

Değerlendirme Süreci (gerçekten uçtan uca)
Model tamamlanmalıdır:
1️⃣ Tam ifadeyi anlamak (resmi açıklama)
2️⃣ Algoritma tasarlayın ve zaman/ben bellek kısıtlamalarına uyduğundan emin olun.
3️⃣ Derlenebilir C++ (veya adapter dili) kaynak kodu çıktısı
4️⃣ Birleşik Docker imajında derleme başarılı
5️⃣ Tespit edici gizli test altında tüm test durumlarını geçmek
Tüm süreç, her bir soru için verdict, günlük, duvar saati zamanı ve bellek verileri üretecek, tamamen denetlenebilir.📋

Hile önleme tasarımı & Gizli test güçlendirme
• Codeforces'ın gerçek yarışma sorularını yakalayın ve orijinal zaman/bellek sınırlamalarını dondurun;
• Codeforces tarzı hack aşaması ve iç fuzzing ekleyin, gizli testleri güçlendirmek için;
Bu nedenle puan artık bir prompt şansı değil, gerçek bir sağlam kodlama yeteneğinin bir yansımasıdır.💪

Kapsam geniş, zorluk yelpazesi tam
• Codeforces: Sürekli, taze, geniş soru tipi dağılımı;
• ICPC: Takım seviyesindeki çok adımlı akıl yürütme ve I/O mühendislik yeteneklerini test eder;
• IOI: Derin veri yapıları ve DP düşüncesini değerlendirme, hafif algoritma hataları TLE/WA ile sonuçlanabilir.
Her soruda, model puanlamasının insanlarla doğrudan karşılaştırılabilir olmasını sağlayan, tarihi insan geçiş oranlarına dayalı Elo tarzı bir derecelendirme (≤2000 Kolay / 2000–3000 Orta / >3000 Zor) bulunmaktadır.📈

Şeffaflık ve Tekrar Üretilebilirlik — Yerel ile Sıralama Listesi Uyumu
Yerel çalıştırma tamamen aynı Docker yargıcı, dondurulmuş sınırlamalar ve veri bölme kullanır; halka açık sıralama tutarlı bir yapılandırma benimser. Her çalıştırma, "puan" dan "teşhis" e geçişi kolaylaştırmak için JSON nesneleri (verdict, derleyici çıktısı, hata etiketi vb.) üretir.🧾

✅ Araştırmacılar ve mühendislik ekipleri için doğrudan fayda
• Aşırı uyumdan kaçınma ipuçları: Modelin uzun zincir akıl yürütmesi, budama stratejileri, arama stratejileri gibi alanlardaki zayıflıklarını doğru bir şekilde ortaya koymak;
• İyileştirilmiş kapalı döngü: Hata etiketleri ve günlüklerden doğrudan sorunları tespit etme (mantık hatası, I/O işleme, zaman aşımı, bellek zirvesi);
• Adil karşılaştırma: Farklı modeller/takımlar, gerçek ilerlemeyi teşvik etmek için elma-elma karşılaştırması yapabilir, ayar oyunu oynamak yerine.🔬

Sektör ve topluluk üzerindeki etkisi
LCB-Pro, kod üretme/çıkarsama sistemlerinin eğitim ve yayını için endüstri altyapısı haline gelebilir: model geliştirme, akademik değerlendirme, üçüncü taraf denetimi, işe alım süzgeci - hepsi için birleşik ve yüksek güvenilirlikte değerlendirme standartları sağlanmıştır. Endüstri güvenilirliği ve model dağıtım güvenliği önemli ölçüde artacaktır.🚀

LCB-Pro'nun kurulmasına ve NeurIPS tarafından kabul edilen ekibe selam! Bu, titiz değerlendirme ve mühendislik uygulamalarının en yüksek takdiri — ayrıca AI kodu anlama yeteneği değerlendirmenin "olgun ve doğrulanabilir" bir yeni çağa girdiğini işaret ediyor. Tüm katılımcıları kutluyoruz! 👏
Benchmark koşmak mı istiyorsun? Depoyu klonla → Python 3.12 + Docker'ı hazırla → Adaptör standardına göre uygulamayı gerçekleştir → Python ile yerel olarak bir tur çalıştır, JSON çıktı aldıktan sonra sıralama sonuçlarıyla doğrudan karşılaştırabilir ve gönderebilirsin. "Skoru" açıklanabilir bir iyileştirme yoluna dönüştür.🔧

LiveCodeBench Pro sadece bir benchmark değil, aynı zamanda AI'nın "görünüşte doğru kod yazmaktan" "gerçek kaynak kısıtları altında güvenilir çözümler üretmeye" evrilmesindeki önemli bir kilometre taşıdır. Bu sahnede daha fazla modelin adil bir şekilde test edilip sürekli olarak geliştirilmesini dört gözle bekliyorum.✨

LCB-Pro ve tüm katkıda bulunanları tekrar tebrik ederim —— sizler "gerçek, tekrarlanabilir, teşhis edilebilir" değerlendirme standartlarını kodlama AI'nın ana akım vizyonuna taşıdınız. Burada daha fazla mükemmel modelin olgunlaşmasını, büyümesini ve tüm alanı ileriye taşımasını bekliyorum.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Trending TopicsView More
#ETHReboundSoon?
15.7K Popularity
#WhaleAdds$250MBTCLongs
12.7K Popularity
#BigTokenUnlocksAhead
9K Popularity
#FedHostsInnovationSummit
2.5K Popularity
#ShowMyAlphaPoints
201.1K Popularity

Hot Gate FunView More
1GCATGCAT
MC:$1.1MHolders:10575
2GatsbyGatsby
MC:$117.3KHolders:181
3GMGMEME
MC:$113.9KHolders:2790
4GDOGGdog
MC:$902.2KHolders:7165
5芝麻开门芝麻开门
MC:$845.5KHolders:130

Sitemap