DeepSeek mới ra mắt V3.2 và Speciale, khả năng suy luận và hiệu suất gần đạt GPT-5, Gemini 3

ChainNewsAbmedia

2025-12-02 08:15:54

DeepSeek đã ra mắt hai mô hình mới vào ngày 12/2, đó là DeepSeek-V3.2 và DeepSeek-V3.2-Speciale chuyên về suy luận toán học. Chính thức cho biết, hai mô hình này tiếp tục theo đuổi hướng thử nghiệm ban đầu, với mục tiêu nâng cấp toàn diện về khả năng suy luận, sử dụng công cụ và khả năng tư duy dài. DeepSeek cũng nhấn mạnh rằng phiên bản chính thức V3.2 đã có thể so sánh với GPT-5 và Gemini-3 Pro trong nhiều bài kiểm tra suy luận, trong khi phiên bản Speciale đã đạt tiêu chuẩn vàng quốc tế trong các cuộc thi toán học và thông tin.

Bản thử nghiệm dẫn đường, phiên bản chính thức V3.2 ra mắt.

DeepSeek đã định vị V3.2-Exp ra mắt vào tháng 9 là nền tảng thử nghiệm cho thế hệ AI tiếp theo. Phiên bản chính thức DeepSeek-V3.2 được ra mắt lần này không còn mang tên “Exp”, tượng trưng cho việc tính năng đã trưởng thành hơn.

Thông báo chính thức cho biết, phiên bản mới V3.2 có hiệu suất trong nhiều bài kiểm tra suy luận gần giống với GPT-5 và Gemini-3 Pro, và đặc biệt nhấn mạnh đây là lần đầu tiên họ tích hợp chặt chẽ “chế độ suy nghĩ” và “ứng dụng công cụ” trong một mô hình, đồng thời hỗ trợ cả chế độ suy nghĩ và không suy nghĩ. Từ hình dưới đây có thể thấy:

“DeepSeek-V3.2 thông qua bảng kiểm tra tiêu chuẩn chứng minh khả năng sử dụng công cụ của nó đã có thể sánh ngang với các mô hình hàng đầu như GPT-5, Gemini-3 Pro.”

Năng lực suy luận được nâng cấp một lần nữa, công cụ được tích hợp thành điểm nổi bật lớn nhất.

DeepSeek cho biết, điểm nổi bật lớn của V3.2 là khả năng kết hợp quá trình suy diễn với việc sử dụng công cụ. Nói cách khác, mô hình có thể gọi đến các công cụ bên ngoài như công cụ tìm kiếm, máy tính, trình thực thi mã trong khi đang suy nghĩ về một vấn đề nào đó, giúp quá trình xử lý nhiệm vụ hoàn chỉnh hơn, tự chủ hơn và gần gũi hơn với cách con người xử lý vấn đề.

Speciale tập trung vào suy luận dài, hiệu suất toán học đạt tiêu chuẩn huy chương vàng

Ngoài phiên bản tiêu chuẩn V3.2, DeepSeek còn ra mắt một phiên bản khác là DeepSeek-V3.2-Speciale. Phiên bản này được thiết kế đặc biệt cho những bài toán suy luận toán học khó và cần thời gian suy nghĩ lâu.

Vị trí chính thức là hy vọng khám phá giới hạn của khả năng suy diễn mô hình mã nguồn mở, thậm chí xem mô hình có thể đạt đến giới hạn nào. Theo kết quả, Speciale đã đạt được cấp độ huy chương vàng trong các cuộc thi như Olympic Toán Quốc tế (IMO), Olympic Tin học Quốc tế (IOI), và hiệu suất suy diễn của nó tương đương với Gemini-3 Pro mới nhất của Google. Từ hình dưới đây có thể thấy:

“Khả năng suy luận của DeepSeek-V3.2-Speciale đã đạt đến tiêu chuẩn huy chương vàng trong các cuộc thi toán học và thông tin quốc tế, với thành tích vượt trội hoặc tương đương với GPT-5, Gemini-3 Pro và Kimi-K2 trong nhiều bài kiểm tra chuẩn về suy luận và lập trình.”

Phương pháp đào tạo mới được công bố, khả năng đại diện AI được tăng cường thêm.

Ngoài mô hình, DeepSeek cũng công bố một kết quả nghiên cứu mới, đó là họ đã xây dựng phương pháp mới để huấn luyện các đại lý AI. Các đại lý này có thể tự tương tác với môi trường bên ngoài, phân tích dữ liệu, đưa ra quyết định mà không cần con người liên tục cung cấp chỉ thị.

DeepSeek nhấn mạnh rằng đây là công nghệ cơ bản mà họ thiết kế để giúp AI hoạt động hiệu quả hơn và phản ứng nhanh hơn.

Tiếp tục âm lượng trong tháng một, nhịp độ phát triển vẫn tiếp tục tăng tốc.

DeepSeek đã thu hút sự chú ý toàn cầu vào tháng 1 năm nay nhờ một mô hình đột phá. Dòng V3.2 lần này cũng là thành quả mới nhất của họ trong việc tiếp tục động lực nghiên cứu sau thành công đó. Trước khi ra mắt V3.2, DeepSeek vừa phát hành DeepSeekMath-V2 vào tuần trước, một mô hình mã nguồn mở chuyên về chứng minh định lý toán học, cho thấy họ đang tiếp tục củng cố trong lĩnh vực lý luận và toán học.

Báo cáo kỹ thuật đã được công bố, khả năng suy luận của V3.2 gần bằng GPT-5 và Kimi

DeepSeek cũng đồng thời phát hành báo cáo kỹ thuật “DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models”, chỉ ra rằng V3.2 có hiệu suất tương tự như GPT-5 và Kimi-k2-thinking trong nhiều bài kiểm tra chuẩn suy luận.

Báo cáo này cũng nhấn mạnh rằng, khả năng cạnh tranh của các mô hình mã nguồn mở trong nước của Trung Quốc trong lĩnh vực suy diễn vẫn duy trì ở cùng cấp độ với các mô hình hàng đầu quốc tế.

Bài viết này DeepSeek vừa ra mắt V3.2 và Speciale, khả năng suy luận và hiệu suất gần như vượt qua GPT-5, Gemini 3, lần đầu tiên xuất hiện trên Chain News ABMedia.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.