Trí tuệ Nhân tạo Không gian: Đường chân trời tiếp theo của Fei-Fei Li

Fei-Fei Li cho biết biên giới tiếp theo của AI là trí tuệ không gian

Tóm tắt nhanh: Fei-Fei Li nói rằng AI về trí tuệ không gian có thể định hình giai đoạn tiếp theo của điện toán. Phát biểu tại HUMANX ở San Francisco, bà cho rằng chỉ ngôn ngữ là chưa đủ. Bà chỉ ra các mô hình thế giới 3D, World Labs và hệ thống Marvel của công ty này như những khối xây dựng then chốt cho robot, game, chăm sóc sức khỏe và di chuyển tự chủ.

Tại HUMANX ở San Francisco, Fei-Fei Li lập luận rằng bước tiến lớn tiếp theo trong trí tuệ nhân tạo sẽ không đến từ ngôn ngữ một mình. Thay vào đó, bà tập trung vào AI trí tuệ không gian: khả năng của máy móc hiểu, suy luận và tạo ra thế giới 3D và 4D của hình học, chuyển động, tương tác, vật lý và sự thay đổi theo thời gian.

Lập luận đó nằm ở trung tâm của World Labs, công ty mà Li sáng lập để xây dựng các hệ thống AI vượt ra ngoài văn bản và hình ảnh. Theo bà, các mô hình ngôn ngữ như ChatGPT là một bước tiến lớn, nhưng chúng chỉ nắm bắt được một phần của trí tuệ con người. Đời sống hằng ngày, công việc và việc ra quyết định cũng phụ thuộc vào khả năng vận hành trong không gian vật lý.

“Trí tuệ con người không chỉ mang tính ngôn ngữ,” Li nói. Bà mô tả rằng hiểu biết không gian là điều thiết yếu cho tri giác, suy luận và hành động, đặc biệt trong các lĩnh vực nơi máy móc phải điều hướng môi trường, dự đoán kết quả và tương tác với thế giới thực.

AI trí tuệ không gian nghĩa là gì trong thực tế

Li định nghĩa trí tuệ không gian là năng lực tri giác, hiểu và tạo ra không gian 3D hoặc 4D. Điều này bao gồm hình dạng, hình học, tương tác, các ràng buộc vật lý và động lực học theo thời gian.

Trong thực tiễn, đó là sự khác biệt giữa một hệ thống AI có thể mô tả một căn phòng và một hệ thống có thể hiểu các vật trong đó liên quan với nhau như thế nào, chuyển động làm thay đổi cảnh ra sao và điều gì có khả năng xảy ra tiếp theo. Theo khung này, một mô hình thế giới cung cấp cho máy móc một biểu diễn về không gian có thể hỗ trợ lập kế hoạch và hành động.

Li liên kết ý tưởng này với một cái nhìn rộng hơn về trí tuệ được hình thành bởi tri giác và sự hiện thân (embodiment). Bà nhắc đến chặng đường dài của tiến hóa sinh học và trích dẫn việc phát triển các hệ thống cảm giác “cách đây nửa tỷ năm” như một phép ẩn dụ cho thấy trí tuệ không thể chỉ được quy về xử lý ngôn ngữ.

Vì sao World Labs được thành lập ngoài khối học thuật

Li nói rằng cánh cửa mở ra cho công việc này xuất hiện từ sự hội tụ trong giai đoạn 2022–2023. Một bên là những tiến bộ trong AI tạo sinh do các mô hình Transformer dẫn dắt. Bên kia là những cải tiến trong thị giác máy tính và biểu diễn 3D. Bà cho rằng cùng với nhau, các tiến bộ đó đã tạo ra điều kiện kỹ thuật cho một nhóm mô hình mới tập trung vào việc hiểu không gian.

Tuy nhiên, cơ hội đó cũng đi kèm với những yêu cầu ở quy mô công nghiệp. Li nói rằng quyết định khởi động World Labs phản ánh nhu cầu về năng lực tính toán (compute), dữ liệu và nhân tài ở một quy mô khó có thể lắp ráp trong môi trường thuần học thuật.

“Việc này đòi hỏi nguồn lực rất lớn—compute, dữ liệu và nhân tài,” bà nói. Trong khi nhấn mạnh tầm quan trọng của giới học thuật, bao gồm các tổ chức như Stanford Human-Centered AI Institute, bà vẫn đưa ra sự phân biệt rõ ràng giữa nghiên cứu thúc đẩy bởi sự tò mò và việc xây dựng công ty hướng tới triển khai trong thế giới thực.

Cách bà diễn đạt rất thẳng: với tư cách là một nhà nghiên cứu, bà bị thúc đẩy bởi sự tò mò; với tư cách là CEO, bà là người kiến tạo, tập trung vào tác động.

AI trí tuệ không gian liên kết với Marvel và các thế giới 3D như thế nào

Ví dụ cụ thể nhất từ World Labs là Marvel, một mô hình tạo sinh mà Li mô tả là có khả năng tạo ra các thế giới 3D thực sự. Bà nhấn mạnh rằng Marvel không chỉ đơn giản là tạo video. Thay vào đó, nó tạo ra các môi trường tồn tại lâu dài và có thể điều hướng, nơi người dùng hoặc máy móc có thể đi qua.

Theo Li, những thế giới này ban đầu là các môi trường tương đối nhỏ. Sau đó, chúng có thể được mở rộng thành không gian lớn hơn và được kết hợp thành các cảnh phức tạp hơn. Sự khác biệt đó quan trọng vì một mô hình thế giới có thể điều hướng có giá trị kỹ thuật và thương mại khác với một đầu ra hình ảnh thụ động.

“Marvel là một mô hình tạo sinh tạo ra các thế giới 3D thực sự—không phải video, mà là các môi trường tồn tại lâu dài và có thể điều hướng,” bà nói.

Hàm ý là rất rộng. Một mô hình tạo ra các thế giới có tính liên kết không gian có thể trở thành lớp nền cho các ứng dụng tương tác, từ phát triển game và thiết kế số cho đến các lĩnh vực nặng về mô phỏng như robot và hệ thống tự chủ.

Vì sao dữ liệu là nút thắt cổ chai lớn nhất

Li tổ chức thách thức kỹ thuật quanh ba trụ cột: mô hình, compute và dữ liệu. Trong ba yếu tố đó, bà xác định dữ liệu là bài toán khó nhất.

“Mảng khó nhất là dữ liệu,” bà nói.

Vấn đề không chỉ nằm ở dung lượng. Các bộ dữ liệu công khai lớn cho ngôn ngữ dễ được tập hợp hơn nhiều so với các bộ dữ liệu công khai lớn có thể nắm bắt chính xác cấu trúc không gian, chuyển động, vật lý và các tương tác trong thế giới thực. Việc xây dựng các mô hình thế giới 3D đòi hỏi dữ liệu khó thu thập hơn, khó gắn nhãn hơn và khó chuẩn hóa hơn.

Thách thức này đặc biệt gay gắt trong lĩnh vực robot, nơi nguồn cung dữ liệu huấn luyện hữu ích thậm chí còn bị giới hạn hơn. Với các hệ thống cần dự đoán điều gì sẽ xảy ra tiếp theo trong thế giới vật lý, chất lượng dự đoán phụ thuộc rất mạnh vào độ phong phú và tính hiện thực của dữ liệu không gian.

Li tóm tắt giá trị cốt lõi của các mô hình thế giới theo cách vận hành: dự đoán trạng thái tiếp theo hỗ trợ lập kế hoạch và hành động.

Vì sao dữ liệu tổng hợp lại quan trọng đối với AI trí tuệ không gian

Để giải quyết tình trạng thiếu dữ liệu, World Labs sử dụng kết hợp dữ liệu thực và dữ liệu tổng hợp. Li nói rằng cách hai nguồn đó được kết hợp là một phần cốt lõi trong công nghệ của công ty.

“Chúng tôi huấn luyện trên hỗn hợp dữ liệu thực và dữ liệu tổng hợp, và cách chúng tôi kết hợp chúng là một phần then chốt trong công nghệ của mình,” bà nói.

Điểm này quan trọng vượt ra ngoài World Labs. Ở các lĩnh vực mà dữ liệu thế giới thực khan hiếm, đắt hoặc khó thu thập ở quy mô lớn, dữ liệu tổng hợp có thể giúp lấp các khoảng trống, đa dạng hóa các tình huống ở rìa (edge cases) và tăng tốc thử nghiệm. Li cũng lưu ý rằng các mô hình có khả năng tạo ra các môi trường có cấu trúc không gian có thể tự trở thành công cụ cho các phòng thí nghiệm khác, đặc biệt là trong robot.

Kết quả là, một vòng phản hồi có thể quan trọng sẽ xuất hiện. Các mô hình thế giới được huấn luyện trên dữ liệu pha trộn sau đó có thể tạo thêm các môi trường dữ liệu tổng hợp để huấn luyện, kiểm thử và mô phỏng trong các hệ thống liên quan.

Nơi các ứng dụng ban đầu có thể xuất hiện

Li liệt kê một loạt ứng dụng tiềm năng cho trí tuệ không gian, bao gồm game, nghệ thuật, thiết kế, robot, giáo dục, chăm sóc sức khỏe, sản xuất và lái xe tự chủ.

Một số tác động thực tiễn sớm nhất có thể đến từ các ngành mà vốn đã phụ thuộc vào mô phỏng và dự đoán trong thế giới vật lý. Trong di chuyển tự chủ, các công ty như Tesla và Waymo hoạt động trong các bối cảnh mà việc hiểu hình học, chuyển động và tương tác là nền tảng. Trong robot, mô hình thế giới có thể cải thiện chất lượng mô phỏng, dự đoán trạng thái và lập kế hoạch hành động.

Chăm sóc sức khỏe là một lĩnh vực đáng chú ý khác. Li chỉ ra việc diễn giải không gian của dữ liệu chẩn đoán hình ảnh bức xạ (radiological data) như một ví dụ về cách AI nhận thức theo 3D có thể hỗ trợ quy trình lâm sàng. Game và truyền thông nhập vai cũng có thể phát triển nhanh, nhờ giá trị tức thời của các môi trường tồn tại lâu dài và có thể điều hướng cho việc tạo nội dung và trải nghiệm tương tác.

Dù vậy, cuộc thảo luận vẫn mang tính định hướng hơn là thương mại. Li không cung cấp mốc thời gian triển khai cho Marvel, chi tiết về việc công khai hay các chuẩn đánh giá hiệu năng đã được định lượng.

Cách ngành công nghiệp và học thuật hỗ trợ AI trí tuệ không gian

Một chủ đề lặp lại trong các nhận xét của Li là tương lai của AI sẽ cần cả đóng góp từ học thuật lẫn từ công nghiệp. Giới học thuật vẫn rất cần thiết cho tư duy nền tảng, các nghiên cứu dài hạn và khám phá khoa học. Ngược lại, ngành công nghiệp có thể huy động năng lực compute, năng lực kỹ thuật và trọng tâm vận hành cần thiết để biến các khái niệm mới nổi thành những hệ thống có thể sử dụng.

Sự phân công này đặc biệt thể hiện rõ trong một lĩnh vực như trí tuệ không gian, nơi nghiên cứu tiên phong và hạ tầng quy mô lớn phải tiến cùng nhau. Vị trí của chính Li phản ánh vai trò kép đó: bà vẫn gắn chặt với Stanford Human-Centered AI Institute trong khi xây dựng World Labs theo một sứ mệnh thương mại và kỹ thuật.

Hệ sinh thái AI rộng hơn cũng củng cố quan điểm này. Các mô hình Transformer đã tạo nên cuộc cách mạng về ngôn ngữ đằng sau các hệ thống như ChatGPT. Các công ty như Anthropic đã giúp thúc đẩy sự phát triển các mô hình tiên phong. Lập luận của Li là giai đoạn tiếp theo sẽ cần một bước nhảy thay đổi tương tự cho các cỗ máy hiểu thế giới vật lý.

Điều gì vẫn chưa rõ

Dù thuyết trình chiến lược của Li khá rõ ràng, vẫn có một số chi tiết quan trọng chưa được tiết lộ. Không có số liệu tài chính về nguồn lực đã huy động, không có con số cụ thể về quy mô compute và chỉ có giải thích kỹ thuật hạn chế về kiến trúc nội bộ của Marvel.

Cũng có rất ít thảo luận về mốc thời gian cho việc ra mắt thương mại hoặc quyền truy cập công khai. Ngoài ra, trong khi lời hứa từ công nghiệp là rõ ràng, cuộc trò chuyện lại dành ít sự chú ý hơn cho các vấn đề về an toàn, quản trị và đạo đức có thể phát sinh khi các hệ thống AI tạo ra các thế giới tổng hợp có thể điều hướng hoặc hỗ trợ các ứng dụng vật lý có mức độ rủi ro cao.

Dù vậy, thông điệp của Li là không thể nhầm lẫn. Nếu trí tuệ ngôn ngữ đã định nghĩa giai đoạn cuối của AI, thì trí tuệ không gian có thể sẽ định nghĩa giai đoạn tiếp theo. Với các nhà phát triển, nhà đầu tư, nhà nghiên cứu và nhóm sản phẩm, điều đó có nghĩa là biên giới cạnh tranh ngày càng có thể chuyển sang các hệ thống có thể mô hình hóa thế giới, chứ không chỉ mô tả nó.

In sintesi

Fei-Fei Li lập luận rằng biên giới tiếp theo của AI là trí tuệ không gian, không chỉ riêng ngôn ngữ. Luận điểm của bà là các cỗ máy cần hiểu không gian 3D, chuyển động, vật lý và sự thay đổi theo thời gian để hỗ trợ lập kế hoạch và hành động trong thế giới thực.

World Labs đang hướng tới mục tiêu đó bằng các mô hình thế giới và hệ thống Marvel. Theo Li, thách thức lớn nhất là dữ liệu. Các cơ hội ban đầu có thể xuất hiện trong robot, game, chăm sóc sức khỏe, sản xuất và di chuyển tự chủ.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim