Microsoft giới thiệu Critique, một hệ thống nghiên cứu sâu đa mô hình mới trong M365 Copilot

Tóm tắt nhanh

Microsoft đã giới thiệu Critique, một hệ thống nghiên cứu chuyên sâu đa mô hình mới được tích hợp trong Researcher, tác nhân nghiên cứu chuyên sâu của Microsoft 365 Copilot, như một phần của nỗ lực rộng hơn nhằm khiến Copilot có cảm giác đáng tin cậy hơn cho công việc tri thức nghiêm túc thay vì chỉ soạn thảo nhanh.

Microsoft Introduced Critique, A New Multi-Model Deep Research System In M365 CopilotMicrosoft đã giới thiệu Critique, một hệ thống nghiên cứu chuyên sâu đa mô hình mới được tích hợp trong Researcher, tác nhân nghiên cứu chuyên sâu của Microsoft 365 Copilot, như một phần của nỗ lực rộng hơn nhằm khiến Copilot có cảm giác đáng tin cậy hơn cho công việc tri thức nghiêm túc thay vì chỉ soạn thảo nhanh

Theo Microsoft, Critique được thiết kế cho các tác vụ nghiên cứu phức tạp và hoạt động bằng cách chia công việc thành hai phần: một mô hình xử lý lập kế hoạch, truy xuất, tổng hợp và soạn thảo, trong khi một mô hình thứ hai xem xét và tinh chỉnh đầu ra trước khi báo cáo cuối cùng được tạo ra. Microsoft cho biết hệ thống sử dụng các mô hình từ các phòng thí nghiệm tiên phong bao gồm OpenAI và Anthropic, và hiện đã có sẵn thông qua chương trình Frontier của công ty

Reuters cho biết trong thiết lập hiện tại của Critique, GPT của OpenAI tạo ra câu trả lời và Claude của Anthropic sẽ đánh giá lại để đảm bảo độ chính xác và chất lượng trước khi câu trả lời đến tay người dùng. Microsoft cũng cho biết họ muốn quy trình làm việc này về sau trở thành hai chiều, cho phép các mô hình xem xét lẫn nhau theo cả hai hướng

Critique thực sự làm gì bên trong Microsoft 365 Copilot

Mô tả của chính Microsoft cho thấy rõ rằng Critique không chỉ là một tính năng mang tính thẩm mỹ hay một nút mới được gắn lên Copilot.Nó hoạt động bên trong Researcher của Microsoft 365 Copilot và được xây dựng cho những tác vụ sâu hơn, nơi việc làm đúng quan trọng ngang bằng với việc làm nhanh. Một mô hình thực hiện công việc đào bới và soạn thảo báo cáo, trong khi mô hình thứ hai bước vào như một biên tập viên, kiểm tra các dữ kiện, làm sắc nét cấu trúc và giúp biến nó thành một bản hoàn thiện đáng tin cậy hơn.

Microsoft nói rằng toàn bộ ý tưởng là tách việc tạo sinh khỏi việc đánh giá, thay vì yêu cầu một mô hình vừa động não, viết, tự kiểm tra sự thật và đánh bóng phần việc của mình cùng lúc. Sự phân biệt đó quan trọng vì phần lớn lỗi của AI đến chính từ nút thắt một mô hình. Khi một hệ thống đơn lẻ được giao làm mọi thứ, nó có thể tạo ra thứ trông có vẻ bóng bẩy trong khi âm thầm bỏ sót các khoảng trống, phóng đại các tuyên bố, hoặc dựa vào bằng chứng yếu.

Microsoft cho biết lớp đánh giá của Critique được xây dựng dựa trên đánh giá theo thang chấm (rubric), có chú ý đến độ tin cậy của nguồn, mức độ đầy đủ của báo cáo và nền tảng bằng chứng chặt chẽ. Nói bằng ngôn ngữ đơn giản, mô hình thứ hai ở đó để hỏi liệu bản nháp có thực sự trả lời câu hỏi hay không, liệu phần trích dẫn có vững chắc hay không, và liệu câu chuyện cuối cùng có được hỗ trợ bởi bằng chứng hay không—thay vì chỉ nghe có vẻ tự tin

Microsoft không quảng bá Critique như một thí nghiệm phụ

Một trong những chi tiết quan trọng hơn trong thông báo của Microsoft là Critique sẽ là trải nghiệm mặc định trong Researcher khi chọn Auto trong bộ chọn mô hình. Điều đó cho thấy công ty coi đây là nhiều hơn một tính năng phòng thí nghiệm tùy chọn dành cho người dùng am hiểu. Trên thực tế, họ đang coi việc xem xét đa mô hình như chuẩn mực mới cho chất lượng nghiên cứu chuyên sâu trong Microsoft 365 Copilot. Đây là một lựa chọn sản phẩm đáng kể, vì nó gợi ý rằng Microsoft tin khách hàng doanh nghiệp quan tâm ít hơn đến tốc độ phản hồi thô và quan tâm nhiều hơn đến ít “ảo giác” hơn, cấu trúc vững hơn và sự tự tin cao hơn ở báo cáo hoàn chỉnh

Điều này cũng khớp gọn với thông điệp tổng thể của Microsoft về Wave 3 của Microsoft 365 Copilot, nơi công ty đang đẩy mạnh ý tưởng Copilot như một “hệ thống cho công việc” được xây dựng dựa trên lợi thế đa mô hình thay vì dựa vào bất kỳ một phòng thí nghiệm AI đơn lẻ nào. Theo cách Microsoft mô tả, Copilot được thiết kế để khai thác trí tuệ tốt nhất hiện có từ khắp ngành, được “neo” vào bối cảnh công việc thông qua thứ họ gọi là Work IQ và được bảo vệ bởi các cơ chế kiểm soát dữ liệu doanh nghiệp. Critique là một trong những ví dụ rõ ràng nhất về chiến lược đó khi chuyển từ ngôn ngữ marketing sang một tính năng sản phẩm hiển thị

Các con số trong bài benchmark là một phần lớn trong chiêu bán hàng của Microsoft

Microsoft không chỉ nói rằng Critique thấy “tốt hơn”. Họ còn nói hệ thống hoạt động tốt hơn trong một benchmark chính thức. Trong phần mô tả kỹ thuật, công ty cho biết họ đã thử nghiệm Critique trên benchmark DRACO, viết tắt của Deep Research Accuracy, Completeness, and Objectivity (Độ chính xác, Tính đầy đủ và Tính khách quan trong nghiên cứu chuyên sâu), bao gồm 100 tác vụ nghiên cứu phức tạp trên 10 lĩnh vực. Microsoft cho biết các phản hồi được chấm dựa trên độ chính xác về mặt thực tế, mức độ bao quát và độ sâu của phân tích, chất lượng trình bày và chất lượng trích dẫn, và rằng Critique đã vượt trội phiên bản chỉ dùng một mô hình của Researcher ở cả bốn tiêu chí

Công ty nêu bật mức tăng lớn nhất ở mức độ bao quát và độ sâu của phân tích, tiếp theo là chất lượng trình bày và độ chính xác về mặt thực tế. Họ cũng nói rằng các cải tiến là có ý nghĩa thống kê và Researcher khi có Critique mang lại điểm tổng hợp tăng +7.0 điểm, hay +13.88% so với Perplexity Deep Research (mô hình Claude Opus 4.6), mà Microsoft mô tả là hệ thống tốt nhất được báo cáo trong bài nghiên cứu benchmark

Data | Source: Microsoft

Đây là một tuyên bố gây chú ý, đặc biệt vì cuộc đua nghiên cứu chuyên sâu đã trở thành một trong những mặt trận cạnh tranh nhất trong AI doanh nghiệp. Các công cụ nghiên cứu không còn chỉ được đánh giá xem chúng có thể thu thập thông tin hay không, mà còn dựa vào việc chúng có thể lắp ráp một báo cáo “sẵn sàng cho việc ra quyết định” hay không

Lập luận của Microsoft là lớp đánh giá buộc các nhà nghiên cứu phải nhận ra các góc còn thiếu, siết chặt tổ chức nội dung, thách thức các tuyên bố yếu và sử dụng trích dẫn cẩn thận hơn. Dù việc khách hàng có trải nghiệm được các lợi ích đó trong quy trình làm việc thực tế hay không sẽ quan trọng hơn biểu đồ benchmark, nhưng Microsoft rõ ràng đang tìm cách phát tín hiệu rằng đây là một bước nhảy chất lượng có thể đo lường được, chứ không phải một bản cập nhật mô hình mơ hồ

Council cho thấy Microsoft đang nghĩ xa hơn một “đáp án tốt nhất”

Critique không phải là tính năng duy nhất Microsoft giới thiệu cùng với bản cập nhật này. Công ty cũng ra mắt Council, một chế độ so sánh đa mô hình bên trong Researcher. Microsoft nói rằng Council chạy đồng thời các mô hình của Anthropic và OpenAI, cho phép mỗi mô hình tạo ra một báo cáo độc lập đầy đủ. Sau đó, một mô hình “giám khảo” riêng sẽ tạo ra một bản tóm tắt được chưng cất, cho thấy báo cáo nào giống nhau ở điểm nào, khác nhau ở điểm nào và mỗi mô hình đóng góp riêng biệt ra sao. Microsoft Support mô tả điều này là Model Council, một chế độ vừa giữ lại cả hai báo cáo đầy đủ, vừa bổ sung bản tóm tắt so sánh để giúp người dùng quyết định đầu ra nào mạnh hơn hoặc cách kết hợp chúng

Đó là một tín hiệu rất thú vị về hướng mà AI doanh nghiệp có thể đang tiến tới. Trong một thời gian, ngành công nghiệp đã hành xử như thể mục tiêu là tìm một mô hình có thể thay thế tất cả các mô hình khác. Động thái mới nhất của Microsoft gợi ý rằng tương lai thực tế hơn có thể là nơi các công ty không đủ tin tưởng vào bất kỳ một mô hình đơn lẻ nào để biến nó thành tiếng nói duy nhất trong căn phòng

Thời điểm ra mắt Critique không phải ngẫu nhiên. Microsoft đang chịu áp lực để chứng minh rằng Microsoft 365 Copilot đang trở nên hữu ích hơn, khác biệt hơn và có giá trị hơn khi cạnh tranh gia tăng

Reuters liên hệ việc triển khai Critique và Council với nỗ lực của Microsoft nhằm cải thiện mức độ chấp nhận Copilot trong một thị trường mà các đối thủ như Gemini của Google và các sản phẩm Claude của Anthropic đang đẩy mạnh vào AI cho nơi làm việc. Axios cũng lưu ý rằng chiến lược đa mô hình của Microsoft có một lợi ích khác: nó cho thấy công ty không bị khóa vào sự phụ thuộc quá mức vào OpenAI trong bối cảnh vị trí dẫn đầu của các mô hình tiên phong có thể thay đổi nhanh chóng

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:2
    0.00%
  • Ghim