Дослідження показує розрив у продуктивності між онлайн і офлайн RL для LLM — особливо в масштабах, — але включення зразків на основі політики в офлайн алгоритми (ітеративне/напівонлайн RL) може закрити розрив, при цьому якість навчальних даних часто переважає вибір методу RL.

Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Репост
  • Поділіться
Прокоментувати
0/400
GhostAddressMinervip
· 12год тому
Сигнали про підробку якості даних у блокчейні вже відстежуються
Переглянути оригіналвідповісти на0
WagmiOrRektvip
· 12год тому
Якість навчальних даних є ключовою, правда?
Переглянути оригіналвідповісти на0
ContractFreelancervip
· 12год тому
Офлайн-навчання все ще не зовсім те.
Переглянути оригіналвідповісти на0
MEVSupportGroupvip
· 12год тому
Офлайн-тренування чи тренування у блокчейні - все одно однаково.
Переглянути оригіналвідповісти на0
OnchainDetectiveBingvip
· 12год тому
Смішно, що погана програма працює в офлайн-режимі hhh
Переглянути оригіналвідповісти на0
StakeOrRegretvip
· 12год тому
Ця тонка вуаль повністю офлайн.
Переглянути оригіналвідповісти на0
  • Закріпити