вот где вступает в дело FastVLM



они накладывают MLP для проекции визуальных токенов из FastViTHD в мир LLM

результат: значительно меньше токенов (, например, в 4 раза меньше, чем FastViT, в 16 раз меньше, чем ViT‑L/14 при разрешении 336 пикселей ). Я имею в виду, что это большое снижение количества токенов и сложности, в то время как
IN3.55%
MLP1.06%
PIXEL-1.42%
TOKEN0.65%
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
GasFeeLovervip
· 15ч назад
Ну и ладно, что тут хорошего хвалить.
Посмотреть ОригиналОтветить0
ser_we_are_earlyvip
· 15ч назад
Кажется, FastVLM действительно удивительный.
Посмотреть ОригиналОтветить0
BlockchainBardvip
· 15ч назад
Ужасно удивлен, количество токенов шокировало.
Посмотреть ОригиналОтветить0
WhaleWatchervip
· 16ч назад
Снова придумали что-то новое!
Посмотреть ОригиналОтветить0
DiamondHandsvip
· 16ч назад
Аааа, я немного в недоумении от того, что меня дует...
Посмотреть ОригиналОтветить0
  • Закрепить