La recherche montre un écart de performance entre le RL en ligne et hors ligne pour les LLM, en particulier à grande échelle, mais l'incorporation d'échantillons en politique dans des algorithmes hors ligne ( RL itératif/semi-en ligne ) peut combler l'écart, la qualité des données d'entraînement dépassant souvent le choix de la méthode de RL.

Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Reposter
  • Partager
Commentaire
0/400
GhostAddressMinervip
· Il y a 12h
La falsification de la qualité des données a déjà été suivie par des signaux off-chain.
Voir l'originalRépondre0
WagmiOrRektvip
· Il y a 12h
La qualité des données d'entraînement est la clé.
Voir l'originalRépondre0
ContractFreelancervip
· Il y a 12h
L'entraînement hors ligne est encore un peu décevant.
Voir l'originalRépondre0
MEVSupportGroupvip
· Il y a 12h
L'entraînement hors ligne ou l'entraînement sur la chaîne, c'est la même chose.
Voir l'originalRépondre0
OnchainDetectiveBingvip
· Il y a 12h
C'est nul de courir hors ligne hhh
Voir l'originalRépondre0
StakeOrRegretvip
· Il y a 12h
C'est en pur hors ligne avec ce voile fin.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)