Lembra-se de quando os modelos base eram apenas máquinas de correspondência de padrões? Eles analisavam dados de treinamento, prevendo o próximo token repetidamente. Coisas bastante mecânicas.
Então o InstructGPT mudou o jogo. O truque? Afinar esses modelos brutos com pares de instrução-resposta. De repente, eles podiam conversar naturalmente, realmente seguir o que você está pedindo - tudo isso enquanto mantinham aquele profundo conhecimento que já haviam aprendido intacto.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
18 Curtidas
Recompensa
18
7
Repostar
Compartilhar
Comentário
0/400
zkProofInThePudding
· 6h atrás
Ah, a InstructGPT realmente quebrou as defesas, passando de previsões mecânicas de tokens para realmente conseguir entender a linguagem humana... um salto qualitativo!
Ver originalResponder0
AlphaWhisperer
· 10h atrás
Para ser sincero, desde a previsão de token até o seguimento de instruções, sinto que essa etapa é a verdadeira chave para fazer esses modelos ganhar vida. Antes, aqueles modelos básicos eram apenas versões melhoradas de papagaios, agora finalmente conseguem entender a linguagem humana.
Ver originalResponder0
AirdropFreedom
· 11h atrás
Eu acho que o InstructGPT foi realmente um ponto de viragem, mas para ser sincero, esses modelos ainda estão apenas a brincar com truques, não são tão inteligentes como se imagina.
Ver originalResponder0
TopBuyerForever
· 11h atrás
Haha, na altura o modelo era realmente uma máquina de repetir burro, agora que penso nisso é um pouco engraçado.
Ver originalResponder0
HorizonHunter
· 11h atrás
Ngl, a operação do InstructGPT foi realmente incrível, passando da simples previsão do próximo token para uma verdadeira compreensão das instruções... essa mudança na verdade não é tão simples assim, certo?
Ver originalResponder0
TokenTaxonomist
· 11h atrás
não, isto está taxonomicamente incompleto para ser honesto... estão a ignorar a verdadeira divergência arquitetónica que ocorreu após o RLHF. segundo a minha análise, o ajuste de instruções foi apenas gestão de sintomas, não a verdadeira mudança evolutiva. deixa-me abrir a minha folha de cálculo rapidamente—os dados sugerem que a verdadeira inflexão foi a modelagem de recompensas sistemática, estatisticamente falando, claro.
Ver originalResponder0
OffchainOracle
· 11h atrás
Para ser sincero, a operação do InstructGPT foi realmente incrível, essa pequena afinação trouxe o grande modelo à vida.
AGI Runtime: Como Chegamos Aqui
Lembra-se de quando os modelos base eram apenas máquinas de correspondência de padrões? Eles analisavam dados de treinamento, prevendo o próximo token repetidamente. Coisas bastante mecânicas.
Então o InstructGPT mudou o jogo. O truque? Afinar esses modelos brutos com pares de instrução-resposta. De repente, eles podiam conversar naturalmente, realmente seguir o que você está pedindo - tudo isso enquanto mantinham aquele profundo conhecimento que já haviam aprendido intacto.