Помните, когда базовые модели были просто машинами сопоставления шаблонов? Они обрабатывали тренировочные данные, предсказывая следующий токен снова и снова. Довольно механическая вещь.
Затем InstructGPT изменил правила игры. Трюк? Тонкая настройка этих сырых моделей с парами инструкций и ответов. Внезапно они могли общаться естественно, действительно следовать тому, что вы спрашиваете, - при этом сохраняя те глубокие знания, которые они уже усвоили.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
18 Лайков
Награда
18
7
Репост
Поделиться
комментарий
0/400
zkProofInThePudding
· 4ч назад
Ха, действительно, InstructGPT сломал защиту, от чисто механического прогнозирования токенов до настоящего понимания человеческой речи... качественный скачок!
Посмотреть ОригиналОтветить0
AlphaWhisperer
· 8ч назад
Если говорить по правде, то шаг от предсказания токенов к следованию инструкциям — это то, что действительно оживляет эти модели. Ранее базовые модели были просто усовершенствованной версией попугая, а теперь они наконец-то могут понимать человеческую речь.
Посмотреть ОригиналОтветить0
AirdropFreedom
· 8ч назад
Я думаю, что InstructGPT действительно стал поворотным моментом, но, честно говоря, сейчас эти модели все еще играют с фишками и вовсе не так умны, как можно было бы представить.
Посмотреть ОригиналОтветить0
TopBuyerForever
· 8ч назад
Ха-ха, тогдашняя модель действительно была просто тупой повторюшкой, сейчас, вспоминая, это немного смешно.
Посмотреть ОригиналОтветить0
HorizonHunter
· 8ч назад
честно говоря, действия InstructGPT действительно впечатляют, они перешли от чистого предсказания следующего токена к настоящему пониманию команд... Этот переход на самом деле не так прост, верно?
Посмотреть ОригиналОтветить0
TokenTaxonomist
· 9ч назад
нет, это таксономически неполно, если честно... они обходят стороной фактическое архитектурное расхождение, которое произошло после RLHF. согласно моему анализу, настройка инструкций была лишь управлением симптомами, а не коренным эволюционным сдвигом. позвольте мне быстро открыть свою таблицу — данные показывают, что реальная инфлексия была системным моделированием награды, статистически говоря, конечно.
Посмотреть ОригиналОтветить0
OffchainOracle
· 9ч назад
Честно говоря, действия InstructGPT действительно впечатляют, такая мелкая настройка сразу же оживила большую модель.
AGI Runtime: Как мы сюда пришли
Помните, когда базовые модели были просто машинами сопоставления шаблонов? Они обрабатывали тренировочные данные, предсказывая следующий токен снова и снова. Довольно механическая вещь.
Затем InstructGPT изменил правила игры. Трюк? Тонкая настройка этих сырых моделей с парами инструкций и ответов. Внезапно они могли общаться естественно, действительно следовать тому, что вы спрашиваете, - при этом сохраняя те глубокие знания, которые они уже усвоили.