Temel modellerin sadece desen eşleştirme makineleri olduğu zamanı hatırlıyor musun? Eğitim verilerini işleyip, tekrar tekrar bir sonraki tokeni tahmin ederlerdi. Oldukça mekanik bir şey.
Sonra InstructGPT oyunun kurallarını değiştirdi. Püf noktası? O ham modelleri talimat-yanıt çiftleri ile ince ayar yapmak. Aniden doğal bir şekilde sohbet edebilir hale geldiler, gerçekten sorduğunuzu takip edebiliyorlardı - hepsini, zaten öğrendikleri derin bilgiyi koruyarak.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
18 Likes
Reward
18
7
Repost
Share
Comment
0/400
zkProofInThePudding
· 6h ago
Ha, InstructGPT gerçekten savunmayı aştı, saf mekanik token tahmininden gerçekten insan dilini anlayabilmeye... niteliksel bir sıçrama!
View OriginalReply0
AlphaWhisperer
· 10h ago
Açıkçası, token tahmininden talimat takibine geçişin, bu modellerin gerçekten hayata geçmesini sağlayan anahtar olduğunu düşünüyorum. Önceki temel modeller sadece geliştirilmiş bir papağan gibiydi, şimdi nihayet insan dilini anlayabiliyorlar.
View OriginalReply0
AirdropFreedom
· 11h ago
InstructGPT'nin bir dönüm noktası olduğunu düşünüyorum, ama açıkçası bu modeller hala şov yapıyor, hayal ettiğimiz kadar akıllı değiller.
View OriginalReply0
TopBuyerForever
· 11h ago
Haha o zamanlardaki model gerçekten bir aptal tekrarlayıcıydı, şimdi düşününce biraz komik.
View OriginalReply0
HorizonHunter
· 11h ago
ngl InstructGPT o operasyon gerçekten harika, tamamen bir sonraki token tahmininden gerçek talimatları anlamaya geçiş... Bu değişim aslında o kadar da basit değil sanırım.
View OriginalReply0
TokenTaxonomist
· 11h ago
hayır, bu taksonomik olarak eksik diyebilirim... gerçekten RLHF sonrası gerçekleşen mimari ayrışmayı göz ardı ediyorlar. benim analizime göre, talimat ayarlaması sadece semptom yönetimiydi, kök evrimsel kayma değil. hemen bir spreadsheet'imizi açayım—veriler, gerçek infleksiyonun sistematik ödül modellemesi olduğunu öngörüyor, istatistiksel olarak tabii ki.
View OriginalReply0
OffchainOracle
· 11h ago
Açıkçası, InstructGPT'nin o hamlesi gerçekten harikaydı, bu kadar küçük bir ayar doğrudan büyük modeli hayata geçirdi.
AGI Runtime: Buraya Nasıl Geldik
Temel modellerin sadece desen eşleştirme makineleri olduğu zamanı hatırlıyor musun? Eğitim verilerini işleyip, tekrar tekrar bir sonraki tokeni tahmin ederlerdi. Oldukça mekanik bir şey.
Sonra InstructGPT oyunun kurallarını değiştirdi. Püf noktası? O ham modelleri talimat-yanıt çiftleri ile ince ayar yapmak. Aniden doğal bir şekilde sohbet edebilir hale geldiler, gerçekten sorduğunuzu takip edebiliyorlardı - hepsini, zaten öğrendikleri derin bilgiyi koruyarak.