Intelligence Artificielle Spatiale : La prochaine frontière de Fei-Fei Li

TheCryptonomist · 2026-04-07T09:08:34+00:00

Fei-Fei Li Says AI’s Next Frontier Is Spatial IntelligenceMini résumé : Fei-Fei Li affirme que l'IA dotée d'intelligence spatiale pourrait façonner la prochaine phase de l'informatique. Lors de sa conférence à HUMANX à San Francisco, elle a soutenu que le langage seul ne suffit pas. Elle a évoqué les modèles du monde en 3D, World Labs et son Marvel

TheCryptonomist

2026-04-07 09:08:34

Fei-Fei Li dit que la prochaine frontière de l’IA, c’est l’intelligence spatiale

Mini résumé : Fei-Fei Li affirme que l’IA d’intelligence spatiale pourrait façonner la prochaine phase de l’informatique. S’exprimant à HUMANX à San Francisco, elle a soutenu que le langage, à lui seul, ne suffit pas. Elle a mis en avant les modèles de monde en 3D, World Labs et son système Marvel comme éléments de base essentiels pour la robotique, le jeu vidéo, la santé et la mobilité autonome.

À HUMANX à San Francisco, Fei-Fei Li a fait valoir que la prochaine grande étape de l’intelligence artificielle ne viendra pas uniquement du langage. Au contraire, elle s’est concentrée sur l’IA d’intelligence spatiale : la capacité des machines à comprendre, raisonner et générer le monde en 3D et en 4D de la géométrie, du mouvement, de l’interaction, de la physique et de l’évolution dans le temps.

Cet argument est au cœur de World Labs, l’entreprise que Li a fondée pour construire des systèmes d’IA qui vont au-delà du texte et des images. Selon elle, les modèles de langage comme ChatGPT constituent une avancée majeure, mais ils ne saisissent qu’une partie de l’intelligence humaine. La vie quotidienne, le travail et la prise de décision dépendent aussi de la capacité d’évoluer dans un espace physique.

« L’intelligence humaine n’est pas seulement linguistique », a déclaré Li. Elle a décrit la compréhension spatiale comme essentielle à la perception, au raisonnement et à l’action, en particulier dans des domaines où les machines doivent naviguer dans des environnements, anticiper les résultats et interagir avec le monde réel.

Que signifie, dans la pratique, l’IA d’intelligence spatiale

Li définit l’intelligence spatiale comme la capacité à percevoir, comprendre et générer un espace 3D ou 4D. Cela inclut la forme, la géométrie, les interactions, les contraintes physiques et les dynamiques dans le temps.

Concrètement, la différence se situe entre un système d’IA capable de décrire une pièce et un système capable de comprendre comment les objets se relient les uns aux autres à l’intérieur, comment le mouvement modifie la scène et ce qui est susceptible de se produire ensuite. Dans ce cadre, un modèle de monde fournit aux machines une représentation de l’espace qui peut soutenir la planification et l’action.

Li a relié cette idée à une vision plus large de l’intelligence façonnée par la perception et l’incarnation. Elle a évoqué la longue trajectoire de l’évolution biologique et a cité le développement des systèmes sensoriels « il y a un demi-milliard d’années » comme métaphore expliquant pourquoi l’intelligence ne peut pas être réduite au seul traitement du langage.

Pourquoi World Labs a été fondée en dehors du monde académique

Li a déclaré que l’ouverture pour ce travail est née d’une convergence survenue en 2022–2023. D’un côté, il y avait des avancées de l’IA générative portées par les modèles de type Transformer. De l’autre, des améliorations en vision par ordinateur et en représentation 3D. Ensemble, a-t-elle dit, ces avancées ont créé les conditions techniques d’une nouvelle catégorie de modèles centrés sur la compréhension spatiale.

Cependant, cette opportunité s’est aussi accompagnée d’exigences à l’échelle industrielle. Li a dit que la décision de lancer World Labs reflétait la nécessité de disposer de calcul, de données et de talents à une échelle difficile à réunir dans un cadre purement académique.

« Cela exige d’énormes ressources — du calcul, des données et des talents », a-t-elle déclaré. Tout en soulignant l’importance du monde académique, y compris des institutions comme le Stanford Human-Centered AI Institute, elle a établi une distinction claire entre la recherche motivée par la curiosité et la construction d’entreprise visant un déploiement dans le monde réel.

Sa formulation était directe : en tant que chercheuse, elle est mue par la curiosité ; en tant que PDG, elle est une bâtisseuse, axée sur l’impact.

Comment l’IA d’intelligence spatiale relie Marvel et les mondes en 3D

L’exemple le plus concret de World Labs, c’est Marvel, un modèle génératif que Li a décrit comme capable de créer de vrais mondes 3D. Elle a insisté sur le fait que Marvel ne génère pas simplement de la vidéo. Au lieu de cela, il produit des environnements persistants et navigables dans lesquels les utilisateurs ou les machines peuvent évoluer.

D’après Li, ces mondes ont d’abord été des environnements relativement petits. Ensuite, ils peuvent être étendus en espaces plus vastes et combinés pour former des scènes plus complexes. Cette distinction compte, car un modèle de monde navigable a une valeur technique et commerciale différente d’une sortie visuelle passive.

« Marvel est un modèle génératif qui crée de vrais mondes 3D — pas des vidéos, mais des environnements persistants et navigables », a-t-elle déclaré.

L’implication est large. Un modèle qui génère des mondes spatialement cohérents pourrait devenir une couche de base pour des applications interactives, du développement de jeux et du design numérique à des secteurs exigeants en simulation comme la robotique et les systèmes autonomes.

Pourquoi les données sont le plus gros goulot d’étranglement

Li a organisé le défi technique autour de trois piliers : les modèles, le calcul et les données. Parmi les trois, elle a identifié les données comme le problème le plus difficile.

« La partie la plus difficile, c’est les données », a-t-elle dit.

Le problème n’est pas seulement le volume. De grands ensembles de données publiques pour le langage sont beaucoup plus faciles à rassembler que de grands ensembles de données publiques qui capturent avec précision la structure spatiale, le mouvement, la physique et les interactions avec le monde réel. Construire des modèles de mondes 3D exige des données plus difficiles à collecter, plus difficiles à annoter et plus difficiles à standardiser.

Ce défi est particulièrement aigu en robotique, où l’offre de données d’entraînement utiles est encore plus limitée. Pour des systèmes qui doivent anticiper ce qui se passe ensuite dans le monde physique, la qualité de la prédiction dépend fortement de la richesse et du réalisme des données spatiales.

Li a résumé la valeur centrale des modèles de monde en termes opérationnels : prédire l’état suivant permet la planification et l’action.

Pourquoi les données synthétiques comptent pour l’IA d’intelligence spatiale

Pour répondre au manque de données, World Labs utilise un mélange de données réelles et synthétiques. Li a dit que la manière dont ces sources sont combinées constitue une partie centrale de la technologie de l’entreprise.

« Nous nous entraînons sur un mélange de données réelles et synthétiques, et la façon dont nous les combinons est une partie clé de notre technologie », a-t-elle dit.

Ce point compte au-delà de World Labs. Dans des secteurs où les données du monde réel sont rares, coûteuses ou difficiles à capturer à grande échelle, les données synthétiques peuvent aider à combler les lacunes, diversifier les cas limites et accélérer l’expérimentation. Li a aussi noté que des modèles capables de générer des environnements spatialement structurés pourraient eux-mêmes devenir des outils pour d’autres laboratoires, en particulier en robotique.

En conséquence, une boucle de rétroaction potentiellement importante apparaît. Des modèles de monde entraînés sur des données mixtes pourraient ensuite générer des environnements synthétiques supplémentaires pour l’entraînement, les tests et la simulation dans des systèmes connexes.

Où des applications précoces pourraient émerger

Li a listé une large gamme d’applications possibles pour l’intelligence spatiale, y compris le jeu vidéo, l’art, le design, la robotique, l’éducation, la santé, la fabrication et la conduite autonome.

Une partie des premiers impacts pratiques pourrait se produire dans des industries qui dépendent déjà de la simulation et de la prédiction du monde physique. En mobilité autonome, des entreprises comme Tesla et Waymo opèrent dans des environnements où comprendre la géométrie, le mouvement et l’interaction est fondamental. En robotique, les modèles de monde peuvent améliorer la qualité de simulation, la prédiction de l’état et la planification des actions.

La santé est un autre domaine notable. Li a fait référence à l’interprétation spatiale des données radiologiques comme un exemple de la manière dont une IA sensibilisée au 3D pourrait soutenir les flux de travail cliniques. Le jeu vidéo et les médias immersifs pourraient aussi évoluer rapidement, étant donné la valeur immédiate des environnements persistants et navigables pour la création de contenu et les expériences interactives.

Malgré tout, la discussion est restée orientée vers les possibilités plutôt que vers le plan commercial. Li n’a pas fourni de calendrier de déploiement pour Marvel, de détails sur la disponibilité publique ni de repères de performance chiffrés.

Comment l’industrie et l’académie soutiennent l’IA d’intelligence spatiale

Un thème récurrent dans les propos de Li était que l’avenir de l’IA exigera des contributions à la fois académiques et industrielles. Le monde académique demeure essentiel pour la réflexion de fond, les investigations sur de longues périodes et l’exploration scientifique. L’industrie, à l’inverse, peut rassembler la puissance de calcul, la capacité d’ingénierie et l’orientation opérationnelle nécessaires pour transformer des concepts émergents en systèmes utilisables.

Cette division du travail est particulièrement visible dans un domaine comme l’intelligence spatiale, où la recherche de pointe et les infrastructures à grande échelle doivent progresser ensemble. La position de Li reflète ce double rôle : elle reste étroitement associée au Stanford Human-Centered AI Institute tout en construisant World Labs autour d’une mission commerciale et technique.

L’écosystème plus large de l’IA renforce ce point. Les modèles Transformer ont permis la révolution du langage derrière des systèmes comme ChatGPT. Des entreprises comme Anthropic ont aidé à accélérer le développement des modèles de pointe. L’argument de Li est que l’étape suivante exigera un saut similaire pour des machines capables de comprendre le monde physique.

Ce qui reste flou

Malgré toute la clarté stratégique de la thèse de Li, plusieurs détails importants demeurent non divulgués. Il n’y avait aucun chiffre financier sur les ressources levées, aucun nombre précis sur l’échelle de calcul et seulement une explication technique limitée de l’architecture interne de Marvel.

Il y a aussi eu peu de discussion sur les délais de déploiement commercial ou d’accès public. En outre, même si la promesse industrielle était claire, la conversation a accordé moins d’attention aux questions de sécurité, de gouvernance et d’éthique qui pourraient émerger lorsque des systèmes d’IA génèrent des mondes synthétiques navigables ou prennent en charge des applications physiques à enjeux élevés.

Pour autant, le message de Li était sans équivoque. Si l’intelligence liée au langage a défini la dernière phase de l’IA, l’intelligence spatiale pourrait définir la prochaine. Pour les développeurs, les investisseurs, les chercheurs et les équipes produit, cela signifie que la frontière concurrentielle pourrait de plus en plus se déplacer vers des systèmes capables de modéliser le monde, pas seulement de le décrire.

In sintesi

Fei-Fei Li soutient que la prochaine frontière de l’IA, c’est l’intelligence spatiale, et non le langage seul. Sa thèse est que les machines doivent comprendre l’espace 3D, le mouvement, la physique et le changement au fil du temps afin de soutenir la planification et l’action dans le monde réel.

World Labs progresse vers cet objectif avec des modèles de monde et le système Marvel. Le plus grand défi, selon Li, c’est la donnée. Les premières opportunités pourraient émerger en robotique, dans le jeu vidéo, dans la santé, dans la fabrication et dans la mobilité autonome.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.