哪個模型在撲克中最強?


基準測試很棒,但它們並不有趣,我想讓模型進行正面較量
背景:幾個周末前我建立了一個代理撲克引擎,想看看哪個代理更優—Hermes 還是 OpenClaw
Hermes 贏得了第一場比賽,然後我讓他們進行100場(不是手牌數)的一對一德州撲克
結果?恰好50-50,兩者都沒有明顯優勢
我在這100場比賽中使用了各種模型來變化,並注意到一些趨勢,所以昨晚我舉辦了一場錦標賽,看看哪個模型在撲克中最強
流程如下:
> 8個模型
> 模型對模型的一對一較量
> 最佳7場系列賽決定勝者
> 每場比賽直到其中一個模型破產或進行100手牌
第一輪後:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 seed) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 seed) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 seed) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 seed) 4-2
沒有太多驚喜,唯一的“冷門”是 Kimi 打敗 Grok,整個系列打滿7場
今天進入半決賽
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆