Искусственный интеллект пространственного восприятия: следующий рубеж Фей-Фей Ли

TheCryptonomist · 2026-04-07T09:08:34+00:00

Фей-Фей Ли говорит, что следующая граница искусственного интеллекта — это пространственный интеллектКраткое резюме: Фей-Фей Ли утверждает, что ИИ с пространственным интеллектом может определить следующий этап развития вычислительной техники. Выступая на HUMANX в Сан-Франциско, она заявила, что одного языка недостаточно. Она указала на модели 3D-миров, World Labs и их Marvel

TheCryptonomist

2026-04-07 09:08:34

Фэй-Фэй Ли говорит, что следующая грань ИИ — пространственный интеллект

Краткое содержание: Фэй-Фэй Ли говорит, что ИИ с пространственным интеллектом способен сформировать следующий этап вычислений. Выступая на HUMANX в Сан-Франциско, она утверждала, что одного языка недостаточно. Она указала на 3D-модели мира, World Labs и ее систему Marvel как на ключевые строительные блоки для робототехники, игр, здравоохранения и автономной мобильности.

На HUMANX в Сан-Франциско Фэй-Фэй Ли утверждала, что следующий крупный шаг в искусственном интеллекте не придет только из языка. Вместо этого она сосредоточилась на ИИ с пространственным интеллектом: способности машин понимать, рассуждать и генерировать 3D- и 4D-мир геометрии, движения, взаимодействия, физики и изменений во времени.

Этот аргумент находится в центре World Labs — компании, которую Ли основала, чтобы создавать ИИ-системы, выходящие за рамки текста и изображений. По ее мнению, языковые модели, такие как ChatGPT, — это значительный прогресс, но они охватывают лишь часть человеческого интеллекта. Повседневная жизнь, работа и принятие решений также зависят от работы в физическом пространстве.

«Человеческий интеллект — это не только лингвистика», — сказала Ли. Она описала пространственное понимание как необходимое для восприятия, рассуждений и действия, особенно в областях, где машины должны ориентироваться в среде, предсказывать исходы и взаимодействовать с реальным миром.

Что пространственный интеллект ИИ означает на практике

Ли определяет пространственный интеллект как способность воспринимать, понимать и генерировать 3D- или 4D-пространство. Это включает форму, геометрию, взаимодействия, физические ограничения и динамику во времени.

На практике это различие между ИИ-системой, которая может описать комнату, и такой, которая понимает, как объекты связаны друг с другом внутри нее, как движение меняет сцену и что, вероятнее всего, произойдет дальше. В этой рамке модель мира дает машинам представление о пространстве, которое может поддерживать планирование и действия.

Ли связала эту идею с более широким взглядом на интеллект, сформированный восприятием и воплощением. Она сослалась на долгую дугу биологической эволюции и привела развитие сенсорных систем «полмиллиарда лет назад» как метафору того, почему интеллект нельзя свести только к обработке языка.

Почему World Labs была основана вне академической среды

Ли сказала, что открытие для этой работы возникло из конвергенции в 2022–2023 годах. С одной стороны были достижения в генеративном ИИ, движимом моделями Transformer. С другой — улучшения в компьютерном зрении и 3D-представлении. Вместе, по ее словам, эти достижения создали технические условия для нового класса моделей, ориентированных на пространственное понимание.

Однако эта возможность также пришла с требованиями промышленного масштаба. Ли сказала, что решение запустить World Labs отражало необходимость в вычислениях, данных и талантах в масштабе, который трудно собрать в чисто академической среде.

«Для этого нужны огромные ресурсы — вычисления, данные и таланты», — сказала она. Подчеркивая важность академических кругов, включая такие институты, как Stanford Human-Centered AI Institute, она провела четкое различие между исследованиями, движимыми любопытством, и созданием компаний, нацеленным на развертывание в реальном мире.

Ее формулировка была прямой: как исследователь, она движима любопытством; как CEO, она — создатель, сосредоточенный на влиянии.

Как пространственный интеллект ИИ связан с Marvel и 3D-мирами

Самый конкретный пример из World Labs — Marvel — генеративная модель, которую Ли описала как способную создавать настоящие 3D-мииры. Она подчеркнула, что Marvel не просто генерирует видео. Вместо этого она создает устойчивые, доступные для навигации среды, по которым пользователи или машины могут перемещаться.

По словам Ли, эти миры начинались с относительно небольших сред. Затем их можно расширять до больших пространств и объединять в более сложные сцены. Это различие важно, потому что навигационная модель мира имеет иное техническое и коммерческое значение, чем пассивный визуальный вывод.

«Marvel — это генеративная модель, которая создает настоящие 3D-мииры — не видео, а устойчивые, доступные для навигации среды», — сказала она.

Намек здесь широк. Модель, которая генерирует пространственно согласованные миры, может стать базовым слоем для интерактивных приложений — от разработки игр и цифрового дизайна до секторов, где много симуляций, таких как робототехника и автономные системы.

Почему данные — главный узкий момент

Ли организовала технический вызов вокруг трех опор: модели, вычисления и данные. Из трех она выделила данные как самую сложную проблему.

«Самая сложная часть — данные», — сказала она.

Проблема не только в объеме. Большие публичные датасеты для языка собрать гораздо легче, чем большие публичные датасеты, которые точно отражают пространственную структуру, движение, физику и взаимодействия в реальном мире. Для построения 3D-моделей мира нужны данные, которые труднее собирать, труднее размечать и труднее стандартизировать.

Этот вызов особенно острый в робототехнике, где запас полезных данных для обучения еще более ограничен. Для систем, которым нужно предвосхищать, что произойдет дальше в физическом мире, качество прогнозирования сильно зависит от насыщенности и реалистичности пространственных данных.

Ли подвела итог ключевой ценности моделей мира в операционных терминах: прогнозирование следующего состояния поддерживает планирование и действия.

Почему синтетические данные важны для ИИ с пространственным интеллектом

Чтобы решить проблему нехватки данных, World Labs использует смесь реальных и синтетических данных. Ли сказала, что способ, которым эти источники комбинируются, является центральной частью технологии компании.

«Мы обучаемся на смеси реальных и синтетических данных, и то, как мы их комбинируем, — ключевая часть нашей технологии», — сказала она.

Этот момент важен и за пределами World Labs. В секторах, где реальные данные дефицитны, дороги или трудно собирать в масштабе, синтетические данные могут помочь заполнить пробелы, диверсифицировать редкие сценарии и ускорить эксперименты. Ли также отметила, что модели, способные генерировать пространственно структурированные среды, сами могут стать инструментами для других лабораторий — особенно в робототехнике.

В результате возникает потенциально важная петля обратной связи. Модели мира, обученные на смешанных данных, затем могли бы генерировать дополнительные синтетические среды для обучения, тестирования и симуляции в соседних системах.

Где могут появиться первые приложения

Ли перечислила широкий спектр возможных применений пространственного интеллекта, включая игры, искусство, дизайн, робототехнику, образование, здравоохранение, производство и автономное вождение.

Некоторое из самых ранних практических воздействий может появиться в отраслях, которые уже зависят от симуляции и прогнозирования физического мира. В автономной мобильности компании вроде Tesla и Waymo работают в средах, где понимание геометрии, движения и взаимодействия является фундаментальным. В робототехнике модели мира могут улучшать качество симуляции, прогнозирование состояния и планирование действий.

Здравоохранение — еще одна примечательная область. Ли указала на пространственную интерпретацию радиологических данных как на один из примеров того, как 3D-ориентированный ИИ может поддерживать клинические процессы. Игры и иммерсивные медиа тоже могут развиваться быстро — из-за непосредственной ценности устойчивых, доступных для навигации сред для создания контента и интерактивных впечатлений.

Тем не менее обсуждение оставалось скорее направлением, чем коммерческими планами. Ли не предоставила сроки развертывания для Marvel, детали публичной доступности или количественные бенчмарки производительности.

Как индустрия и академия поддерживают ИИ с пространственным интеллектом

Повторяющейся темой в замечаниях Ли было то, что будущее ИИ потребует вкладов и академии, и промышленности. Академия остается необходимой для фундаментального мышления, исследований на длинной дистанции и научных изысканий. Индустрия, в отличие от этого, может собрать вычислительные мощности, инженерный потенциал и операционный фокус, необходимые, чтобы превратить возникающие идеи в применимые системы.

Это разделение труда особенно заметно в области вроде пространственного интеллекта, где передовые исследования и крупномасштабная инфраструктура должны развиваться вместе. Позиция Ли отражает эту двойную роль: она продолжает тесно сотрудничать со Stanford Human-Centered AI Institute, одновременно строя World Labs вокруг коммерческой и технической миссии.

Более широкий AI-экосистемный контекст усиливает этот тезис. Модели Transformer обеспечили языковую революцию, стоящую за системами вроде ChatGPT. Такие компании, как Anthropic, помогли продвинуть развитие моделей на переднем крае. Аргумент Ли состоит в том, что следующему этапу понадобится аналогичный скачок для машин, которые понимают физический мир.

Что остается неясным

Несмотря на стратегическую ясность тезиса Ли, несколько важных деталей остаются не раскрыты. Не было финансовых цифр по привлеченным ресурсам, не приводилось конкретных чисел по масштабу вычислений и имелось лишь ограниченное техническое объяснение внутренней архитектуры Marvel.

Также почти не обсуждались сроки коммерческого запуска или публичного доступа. Кроме того, хотя промышленное обещание было ясным, разговор уделил меньше внимания вопросам безопасности, управления и этики, которые могут возникнуть, когда ИИ-системы генерируют навигационные синтетические миры или поддерживают приложения в физическом мире с высокими ставками.

И все же послание Ли было недвусмысленным. Если языковой интеллект определял последнюю фазу ИИ, то пространственный интеллект может определить следующую. Для разработчиков, инвесторов, исследователей и продуктовых команд это означает, что конкурентная граница может все чаще смещаться в сторону систем, которые способны моделировать мир, а не просто описывать его.

В синтезе

Фэй-Фэй Ли утверждает, что следующая грань ИИ — пространственный интеллект, а не один только язык. Ее тезис в том, что машины должны понимать 3D-пространство, движение, физику и изменения во времени, чтобы поддерживать планирование и действия в реальном мире.

World Labs движется к этой цели с моделями мира и системой Marvel. Самая большая проблема, по словам Ли, — данные. Первые возможности могут появиться в робототехнике, играх, здравоохранении, производстве и автономной мобильности.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .