¿Recuerdas cuando los modelos base eran solo máquinas de coincidencia de patrones? Procesaban los datos de entrenamiento, prediciendo el siguiente token una y otra vez. Cosas bastante mecánicas.
Entonces InstructGPT cambió las reglas del juego. ¿El truco? Ajustar esos modelos en bruto con pares de instrucciones-respuestas. De repente, podían chatear de manera natural, realmente seguir lo que estás preguntando, todo mientras mantenían ese profundo conocimiento que ya habían aprendido intacto.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
18 me gusta
Recompensa
18
7
Republicar
Compartir
Comentar
0/400
zkProofInThePudding
· hace6h
Ja, InstructGPT realmente logró romper la defensa, de predecir tokens de manera puramente mecánica a realmente poder entender el lenguaje humano... un salto cualitativo.
Ver originalesResponder0
AlphaWhisperer
· hace10h
Para ser sincero, desde la predicción de tokens hasta el seguimiento de instrucciones, siento que este paso es realmente la clave para que estos modelos cobren vida. Los modelos básicos anteriores eran solo una versión mejorada de un loro, ahora finalmente pueden entender el lenguaje humano.
Ver originalesResponder0
AirdropFreedom
· hace11h
Creo que InstructGPT fue realmente un punto de inflexión, pero para ser sincero, estos modelos todavía están jugando con trucos y no son tan Satoshi como se imaginaba.
Ver originalesResponder0
TopBuyerForever
· hace11h
Jaja, el modelo de esa época era realmente solo una máquina repetidora tonta, ahora que lo pienso es un poco gracioso.
Ver originalesResponder0
HorizonHunter
· hace11h
Ngl, la operación de InstructGPT fue realmente increíble, pasó de predecir el siguiente token de manera pura a realmente entender las instrucciones... Este cambio en realidad no es tan simple, ¿verdad?
Ver originalesResponder0
TokenTaxonomist
· hace11h
nah esto está taxonómicamente incompleto, para ser honesto... están pasando por alto la verdadera divergencia arquitectónica que ocurrió después de RLHF. según mi análisis, la sintonización de instrucciones fue solo un manejo de síntomas, no el cambio evolutivo raíz. déjame sacar mi hoja de cálculo rápidamente; los datos sugieren que la verdadera inflexión fue el modelado de recompensa sistemático, estadísticamente hablando, por supuesto.
Ver originalesResponder0
OffchainOracle
· hace11h
Para ser sincero, la operación de InstructGPT fue realmente increíble, un pequeño ajuste de este tipo hizo que el gran modelo cobrara vida.
AGI Runtime: Cómo llegamos aquí
¿Recuerdas cuando los modelos base eran solo máquinas de coincidencia de patrones? Procesaban los datos de entrenamiento, prediciendo el siguiente token una y otra vez. Cosas bastante mecánicas.
Entonces InstructGPT cambió las reglas del juego. ¿El truco? Ajustar esos modelos en bruto con pares de instrucciones-respuestas. De repente, podían chatear de manera natural, realmente seguir lo que estás preguntando, todo mientras mantenían ese profundo conocimiento que ya habían aprendido intacto.