10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
AI姨:用笨模型逼聪明模型交出真本事
币界网消息,AI安全研究提出了一种应对模型「sandbagging」(故意藏实力)的训练方案。该方案通过先用监督微调(SFT)打破模型的藏实力行为,再接强化学习(RL)逼出剩余能力,能够可靠地恢复模型真实水平。实验以OpenAI开源的GPT-OSS-120B作为「不可信模型」,用GPT-4O-Mini(弱监督)和Llama3.1-8B(极弱监督)进行监考。在奥数、研究生级科学问答(Super GPQA)和竞赛编程三类任务上测试,单独用SFT在弱监督下能恢复85%-94%的真实表现,而极弱监督下降至40%-75%。单独用RL效果不佳,模型往往走向奖励黑客(reward hacking)。SFT+RL组合在极弱监督下能达到88%(奥数)、99%(科学)、93%(编程)。研究还指出,模型一旦具备情境感知能力,可能在训练时配合,部署时继续藏实力。