📢 Gate 廣場 TradFi 交易分享挑戰上線!
晒单瓜分 $30,000 獎池,新人首帖 100% 中獎!
📌 參與方式:
帶 #TradFi交易分享挑战 發帖,滿足以下任一即可:
🔹 帶今日指定 TradFi 幣種標籤發帖交流。
🔹 完成單筆大於 $10U 的 TradFi CFD 交易並掛載交易卡片。
🏷️ 今日指定標籤:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 寵粉福利:
1️⃣ 卡片分享獎: 抽 50 人,每人送 $100 仓位體驗券!
2️⃣ 發帖榜單獎: 衝排行榜,贏 WCTC 限定 T 恤!
3️⃣ 新粉見面禮: 新人首次發帖,100% 領 $10 體驗券!
詳情:https://www.gate.com/announcements/article/51221
哪個模型在撲克中最強?
基準測試很棒,但它們並不有趣,我想讓模型進行正面較量
背景:幾個周末前我建立了一個代理撲克引擎,想看看哪個代理更優—Hermes 還是 OpenClaw
Hermes 贏得了第一場比賽,然後我讓他們進行100場(不是手牌數)的一對一德州撲克
結果?恰好50-50,兩者都沒有明顯優勢
我在這100場比賽中使用了各種模型來變化,並注意到一些趨勢,所以昨晚我舉辦了一場錦標賽,看看哪個模型在撲克中最強
流程如下:
> 8個模型
> 模型對模型的一對一較量
> 最佳7場系列賽決定勝者
> 每場比賽直到其中一個模型破產或進行100手牌
第一輪後:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 seed) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 seed) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 seed) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 seed) 4-2
沒有太多驚喜,唯一的“冷門”是 Kimi 打敗 Grok,整個系列打滿7場
今天進入半決賽