Lembra-se de quando os modelos base eram apenas máquinas de correspondência de padrões? Eles analisavam dados de treinamento, prevendo o próximo token repetidamente. Coisas bastante mecânicas.
Então o InstructGPT mudou o jogo. O truque? Afinar esses modelos brutos com pares de instrução-resposta. De repente, eles podiam conversar naturalmente, realmente seguir o que você está pedindo - tudo isso enquanto mantinham aquele profundo conhecimento que já haviam aprendido intacto.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
17 gostos
Recompensa
17
7
Republicar
Partilhar
Comentar
0/400
zkProofInThePudding
· 2h atrás
Ah, a InstructGPT realmente quebrou as defesas, passando de previsões mecânicas de tokens para realmente conseguir entender a linguagem humana... um salto qualitativo!
Ver originalResponder0
AlphaWhisperer
· 6h atrás
Para ser sincero, desde a previsão de token até o seguimento de instruções, sinto que essa etapa é a verdadeira chave para fazer esses modelos ganhar vida. Antes, aqueles modelos básicos eram apenas versões melhoradas de papagaios, agora finalmente conseguem entender a linguagem humana.
Ver originalResponder0
AirdropFreedom
· 6h atrás
Eu acho que o InstructGPT foi realmente um ponto de viragem, mas para ser sincero, esses modelos ainda estão apenas a brincar com truques, não são tão inteligentes como se imagina.
Ver originalResponder0
TopBuyerForever
· 6h atrás
Haha, na altura o modelo era realmente uma máquina de repetir burro, agora que penso nisso é um pouco engraçado.
Ver originalResponder0
HorizonHunter
· 6h atrás
Ngl, a operação do InstructGPT foi realmente incrível, passando da simples previsão do próximo token para uma verdadeira compreensão das instruções... essa mudança na verdade não é tão simples assim, certo?
Ver originalResponder0
TokenTaxonomist
· 7h atrás
não, isto está taxonomicamente incompleto para ser honesto... estão a ignorar a verdadeira divergência arquitetónica que ocorreu após o RLHF. segundo a minha análise, o ajuste de instruções foi apenas gestão de sintomas, não a verdadeira mudança evolutiva. deixa-me abrir a minha folha de cálculo rapidamente—os dados sugerem que a verdadeira inflexão foi a modelagem de recompensas sistemática, estatisticamente falando, claro.
Ver originalResponder0
OffchainOracle
· 7h atrás
Para ser sincero, a operação do InstructGPT foi realmente incrível, essa pequena afinação trouxe o grande modelo à vida.
AGI Runtime: Como Chegamos Aqui
Lembra-se de quando os modelos base eram apenas máquinas de correspondência de padrões? Eles analisavam dados de treinamento, prevendo o próximo token repetidamente. Coisas bastante mecânicas.
Então o InstructGPT mudou o jogo. O truque? Afinar esses modelos brutos com pares de instrução-resposta. De repente, eles podiam conversar naturalmente, realmente seguir o que você está pedindo - tudo isso enquanto mantinham aquele profundo conhecimento que já haviam aprendido intacto.