Influencer AI Matt Shumer đã viết một bài blog lan truyền trên X về tiềm năng của AI trong việc gây gián đoạn và cuối cùng tự động hóa hầu hết các công việc liên quan đến kiến thức, thu hút hơn 55 triệu lượt xem trong 24 giờ qua.
Bài luận dài 5.000 từ của Shumer chắc chắn đã chạm vào dây thần kinh. Viết với giọng thở hổn hển, bài blog được xây dựng như một lời cảnh báo gửi đến bạn bè và gia đình về việc công việc của họ sắp bị thay đổi một cách căn bản. (Fortune cũng đã đăng tải một phiên bản chỉnh sửa của bài đăng của Shumer như một bài bình luận.)
“Vào ngày 5 tháng 2, hai phòng lab AI lớn đã phát hành các mô hình mới cùng ngày: GPT-5.3 Codex từ OpenAI, và Opus 4.6 từ Anthropic,” ông viết. “Và điều gì đó đã bật lên. Không giống như một công tắc sáng… mà giống như khoảnh khắc bạn nhận ra nước đã dâng lên quanh bạn và giờ đã đến ngực.”
Shumer nói rằng các lập trình viên là chú chim cảnh báo trong mỏ than cho mọi ngành nghề khác. “Kinh nghiệm mà các công nhân công nghệ đã trải qua trong năm qua, khi chứng kiến AI từ ‘công cụ hỗ trợ’ chuyển thành ‘làm tốt hơn tôi,’ chính là trải nghiệm mà tất cả những người khác sắp phải đối mặt,” ông viết. “Luật pháp, tài chính, y tế, kế toán, tư vấn, viết lách, thiết kế, phân tích, dịch vụ khách hàng. Không phải trong mười năm nữa. Những người xây dựng các hệ thống này nói rằng trong vòng từ một đến năm năm. Một số nói còn ít hơn. Và dựa trên những gì tôi đã thấy chỉ trong vài tháng gần đây, tôi nghĩ ‘ít hơn’ có khả năng cao hơn.”
Nhưng mặc dù tính lan truyền của nó, tuyên bố của Shumer rằng những gì đã xảy ra với lập trình là phần mở đầu cho những gì sẽ xảy ra trong các lĩnh vực khác—và, quan trọng nhất, rằng điều này sẽ xảy ra chỉ trong vài năm—dường như tôi không đồng ý. Và tôi viết điều này với tư cách là người đã viết một cuốn sách (Mastering AI: A Survival Guide to Our Superpowered Future) dự đoán rằng AI sẽ biến đổi lớn công việc dựa trên kiến thức vào năm 2029, điều mà tôi vẫn tin tưởng. Tôi chỉ đơn giản không nghĩ quá trình tự động hóa hoàn toàn các quy trình mà chúng ta bắt đầu thấy trong lập trình sẽ đến với các lĩnh vực khác nhanh như Shumer nói. Anh ấy có thể đúng về hướng đi, nhưng giọng điệu đáng sợ trong bài viết của anh ấy khiến tôi cảm thấy như đang gieo rắc nỗi sợ hãi, và phần lớn dựa trên những giả định sai lầm.
Video đề xuất
Không phải tất cả công việc dựa trên kiến thức đều giống như phát triển phần mềm
Shumer nói rằng lý do tại sao mã nguồn là lĩnh vực mà khả năng tự hành có ảnh hưởng lớn nhất cho đến nay là vì các công ty AI đã dành nhiều sự chú ý đến nó. Họ làm vậy, theo Shumer, vì các công ty mô hình tiên phong này xem phát triển phần mềm tự hành là chìa khóa cho chính doanh nghiệp của họ, cho phép các mô hình AI giúp xây dựng thế hệ tiếp theo của các mô hình AI. Trong điều này, cược của các công ty AI dường như đang có kết quả khả quan: tốc độ họ tạo ra các mô hình tốt hơn đã tăng rõ rệt trong năm qua. Và cả OpenAI lẫn Anthropic đều nói rằng mã nguồn đằng sau các mô hình AI mới nhất của họ phần lớn do AI tự viết.
Shumer nói rằng trong khi lập trình là chỉ số dẫn đầu, cùng hiệu suất tăng trưởng trong lập trình cũng xuất hiện trong các lĩnh vực khác, mặc dù đôi khi muộn hơn khoảng một năm so với sự tiến bộ trong lập trình. (Shumer không cung cấp lời giải thích rõ ràng về lý do tại sao có thể tồn tại sự chậm trễ này mặc dù ông ngụ ý rằng đó đơn giản là do các công ty mô hình AI tối ưu hóa cho lập trình trước rồi sau đó mới cải thiện các mô hình trong các lĩnh vực khác.)
Nhưng điều mà Shumer không nói là một lý do khác khiến tiến trình tự động hóa phát triển nhanh hơn trong lĩnh vực phần mềm là vì mã nguồn có một số chỉ số định lượng về chất lượng mà các lĩnh vực khác hoàn toàn không có. Trong lập trình, nếu mã nguồn thực sự tệ, nó sẽ không biên dịch được. Mã kém còn có thể thất bại trong các bài kiểm tra đơn vị mà các tác nhân AI lập trình có thể thực hiện. (Shumer không đề cập rằng các tác nhân lập trình ngày nay đôi khi nói dối về việc đã thực hiện các bài kiểm tra đơn vị—đây là một trong nhiều lý do khiến phát triển phần mềm tự động không hoàn hảo.)
Nhiều nhà phát triển nói rằng mã mà AI viết ra thường đủ tốt để vượt qua các bài kiểm tra cơ bản này nhưng vẫn chưa thực sự tốt: nó thiếu hiệu quả, kém tinh tế, và quan trọng nhất, không an toàn, mở ra rủi ro về an ninh mạng cho tổ chức sử dụng. Nhưng trong lĩnh vực lập trình vẫn còn một số cách để xây dựng các tác nhân AI tự hành nhằm giải quyết một số vấn đề này. Mô hình có thể tạo ra các tác nhân phụ kiểm tra mã của nó về các lỗ hổng bảo mật hoặc phê bình mã về độ hiệu quả. Vì mã nguồn phần mềm có thể được kiểm tra trong các môi trường ảo, có nhiều cách để tự động hóa quá trình học tăng cường—nơi một tác nhân học hỏi qua trải nghiệm để tối đa hóa phần thưởng, chẳng hạn như điểm trong một trò chơi—mà các công ty AI sử dụng để định hình hành vi của các mô hình AI sau khi huấn luyện ban đầu. Điều này có nghĩa là việc tinh chỉnh các tác nhân lập trình có thể được thực hiện tự động quy mô lớn.
Đánh giá chất lượng trong nhiều lĩnh vực công việc dựa trên kiến thức khác còn phức tạp hơn nhiều. Không có trình biên dịch cho luật pháp, không có bài kiểm tra đơn vị cho một kế hoạch điều trị y tế, không có chỉ số rõ ràng về mức độ tốt của một chiến dịch marketing trước khi thử nghiệm trên người tiêu dùng. Trong các lĩnh vực khác, việc thu thập đủ dữ liệu từ các chuyên gia về “điều tốt” trông như thế nào còn khó hơn nhiều. Các công ty AI nhận thức rõ họ gặp vấn đề trong việc thu thập loại dữ liệu này. Đó là lý do tại sao họ hiện đang trả hàng triệu đô la cho các công ty như Mercor, những công ty này lại bỏ ra số tiền lớn để tuyển dụng các kế toán, chuyên gia tài chính, luật sư và bác sĩ để cung cấp phản hồi về các kết quả của AI nhằm giúp các công ty AI huấn luyện mô hình tốt hơn.
Thật vậy, có các tiêu chuẩn đánh giá cho thấy các mô hình AI mới nhất đang tiến bộ nhanh chóng trong các nhiệm vụ chuyên nghiệp ngoài lĩnh vực lập trình. Một trong những tiêu chuẩn tốt nhất là benchmark GDPVal của OpenAI. Nó cho thấy các mô hình tiên phong có thể đạt mức ngang bằng với các chuyên gia con người trong một loạt các nhiệm vụ chuyên nghiệp, từ công việc pháp lý phức tạp đến sản xuất và chăm sóc sức khỏe. Cho đến nay, kết quả của các mô hình mà OpenAI và Anthropic phát hành tuần trước vẫn chưa có kết quả chính thức. Nhưng đối với các mô hình tiền nhiệm, Claude Opus 4.5 và GPT-5.2, chúng đạt mức ngang bằng với các chuyên gia con người trong nhiều nhiệm vụ đa dạng, và vượt qua các chuyên gia trong nhiều lĩnh vực.
Vậy điều này có thể khiến Shumer đúng không? Chưa hẳn vậy. Thật ra, trong nhiều ngành nghề, “điều tốt” trông như thế nào rất mang tính chủ quan. Các chuyên gia con người chỉ đồng thuận về đánh giá các kết quả của AI khoảng 71% thời gian. Hệ thống chấm điểm tự động của OpenAI cho GDPVal còn có độ biến động lớn hơn, chỉ đồng thuận về đánh giá khoảng 66%. Vì vậy, các con số tiêu đề về khả năng của AI trong các nhiệm vụ chuyên nghiệp có thể có sai số khá lớn.
Doanh nghiệp cần độ tin cậy, quản trị và khả năng kiểm tra
Sự biến động này là một trong những lý do khiến các doanh nghiệp còn e dè trong việc triển khai các quy trình tự động hoàn toàn. Không chỉ vì kết quả của mô hình AI có thể sai sót. Mà còn vì, như benchmark GDPVal cho thấy, tương đương với một bài kiểm tra đơn vị tự động trong nhiều bối cảnh chuyên nghiệp có thể cho ra kết quả sai lệch tới một phần ba số lần. Hầu hết các công ty không thể chấp nhận rủi ro này, đặc biệt là khi công việc chất lượng kém có thể bị gửi đi trong một phần ba các trường hợp. Rủi ro này quá lớn. Đôi khi, rủi ro chỉ là về uy tín. Trong những trường hợp khác, nó có thể dẫn đến mất doanh thu ngay lập tức. Nhưng trong nhiều nhiệm vụ chuyên nghiệp, hậu quả của một quyết định sai còn nghiêm trọng hơn: bị xử phạt, kiện tụng, mất giấy phép, mất bảo hiểm, và thậm chí là nguy cơ gây hại thể chất hoặc tử vong—đôi khi đối với số lượng lớn người.
Hơn nữa, việc giữ một con người trong vòng kiểm duyệt để xem xét các kết quả tự động là một vấn đề phức tạp. Các mô hình AI ngày nay thực sự ngày càng tốt hơn. Các ảo tưởng xảy ra ít hơn. Nhưng điều đó chỉ làm cho vấn đề trở nên tồi tệ hơn. Khi lỗi do AI tạo ra ít đi, các người xem xét con người trở nên chủ quan. Các lỗi của AI trở nên khó phát hiện hơn. AI rất giỏi trong việc tự tin sai lầm và trình bày kết quả hoàn hảo về hình thức nhưng thiếu nội dung. Điều này bỏ qua một số tiêu chí giả định mà con người dùng để điều chỉnh mức độ cảnh giác của mình. Các mô hình AI thường thất bại theo những cách mà con người không làm, điều này khiến việc phòng ngừa lỗi do AI gây ra trở nên khó khăn hơn.
Vì tất cả những lý do này, cho đến khi các bài kiểm tra tự động tương đương với phát triển phần mềm được phát triển cho các lĩnh vực chuyên nghiệp hơn, việc triển khai các quy trình AI tự động trong nhiều bối cảnh công việc dựa trên kiến thức sẽ quá rủi ro đối với phần lớn các doanh nghiệp. AI sẽ vẫn là trợ lý hoặc cộng tác viên của các nhân viên kiến thức con người trong nhiều trường hợp, chứ không phải tự động hóa hoàn toàn công việc của họ.
Ngoài ra còn có những lý do khác khiến loại tự động hóa mà các nhà phát triển phần mềm quan sát khó có thể áp dụng cho các lĩnh vực kiến thức khác. Trong nhiều trường hợp, các doanh nghiệp không thể cung cấp cho các tác nhân AI quyền truy cập vào các công cụ và hệ thống dữ liệu cần thiết để thực hiện các quy trình tự động. Đáng chú ý là những người ủng hộ nhiệt tình nhất của tự động hóa AI cho đến nay là các nhà phát triển làm việc độc lập hoặc cho các startup thuần AI. Những lập trình viên này thường không bị ràng buộc bởi các hệ thống cũ và nợ công nghệ, và thường không phải đối mặt với nhiều hệ thống quản trị và tuân thủ.
Các tổ chức lớn hiện nay thường thiếu các phương pháp để liên kết các nguồn dữ liệu và công cụ phần mềm với nhau. Trong những trường hợp khác, lo ngại về rủi ro an ninh và quản trị khiến các doanh nghiệp lớn, đặc biệt trong các ngành bị quy định chặt chẽ như ngân hàng, tài chính, luật pháp và y tế, không muốn tự động hóa nếu không có các đảm bảo chắc chắn về độ tin cậy của kết quả và có quy trình giám sát, quản lý, kiểm tra kết quả đó. Các hệ thống để làm điều này hiện còn sơ khai. Cho đến khi chúng trở nên trưởng thành và mạnh mẽ hơn nhiều, đừng mong đợi các doanh nghiệp sẽ tự động hóa hoàn toàn việc sản xuất các kết quả quan trọng về mặt kinh doanh hoặc có quy định pháp luật.
Phê bình cho rằng Shumer không trung thực về các thất bại của LLM
Tôi không phải là người duy nhất nhận thấy phân tích của Shumer có nhiều điểm sai sót. Gary Marcus, giáo sư danh dự về khoa học nhận thức tại Đại học New York, người đã trở thành một trong những người hoài nghi hàng đầu về các mô hình ngôn ngữ lớn ngày nay, nói với tôi rằng bài đăng trên X của Shumer là “lời thổi phồng mang tính vũ khí hóa.” Và ông chỉ ra các vấn đề trong cả những lập luận của Shumer về phát triển phần mềm tự hành.
“Ông ấy không cung cấp dữ liệu thực nào để hỗ trợ cho tuyên bố rằng các hệ thống mã mới nhất có thể viết ra các ứng dụng phức tạp mà không mắc lỗi,” Marcus nói.
Ông chỉ ra rằng Shumer đã hiểu sai một tiêu chuẩn nổi tiếng của tổ chức đánh giá AI METR, cố gắng đo khả năng lập trình tự hành của AI, cho thấy khả năng của AI đang tăng gấp đôi mỗi bảy tháng. Marcus lưu ý rằng Shumer không đề cập rằng tiêu chuẩn này có hai ngưỡng chính xác là 50% và 80%. Nhưng hầu hết các doanh nghiệp không quan tâm đến một hệ thống thất bại một nửa số lần, hoặc thậm chí thất bại trong một trong năm lần thử.
“Không có hệ thống AI nào có thể làm chính xác mọi nhiệm vụ dài năm giờ mà con người làm mà không mắc lỗi, hoặc gần như vậy, nhưng bạn sẽ không biết điều đó khi đọc blog của Shumer, vốn bỏ qua tất cả các ảo tưởng và lỗi ngớ ngẩn phổ biến trong cuộc sống hàng ngày,” Marcus nói.
Ông cũng lưu ý rằng Shumer không trích dẫn các nghiên cứu gần đây của Caltech và Stanford về các lỗi lý luận trong các mô hình AI tiên tiến. Và ông chỉ ra rằng Shumer đã từng bị bắt gặp trước đó đưa ra những tuyên bố phóng đại về khả năng của một mô hình AI mà ông đã huấn luyện. “Ông ấy thích bán hàng lớn. Điều đó không có nghĩa là chúng ta nên coi trọng ông ấy,” Marcus nói.
Các nhà phê bình khác của blog Shumer chỉ ra rằng phân tích kinh tế của ông ấy thiếu tính lịch sử. Mọi cuộc cách mạng công nghệ khác đều tạo ra nhiều việc làm hơn là loại bỏ chúng về lâu dài. Connor Boyack, chủ tịch Viện Libertas, một tổ chức nghiên cứu chính sách tại Utah, đã viết một bài blog phản đối toàn diện lập luận này.
Vì vậy, đúng vậy, AI có thể đang chuẩn bị để biến đổi công việc. Nhưng việc tự động hóa hoàn toàn các nhiệm vụ như một số nhà phát triển phần mềm bắt đầu quan sát có thể thực hiện được cho một số nhiệm vụ? Đối với phần lớn các nhân viên kiến thức, đặc biệt là những người làm việc trong các tổ chức lớn, điều đó sẽ mất nhiều thời gian hơn nhiều so với những gì Shumer nói.
Tham gia cùng chúng tôi tại Hội nghị Đổi mới Nơi làm việc của Fortune 19–20 tháng 5, 2026, tại Atlanta. Kỷ nguyên mới của đổi mới nơi làm việc đã bắt đầu—và quy tắc cũ đang được viết lại. Tại sự kiện độc quyền, năng lượng cao này, các nhà lãnh đạo sáng tạo nhất thế giới sẽ tụ họp để khám phá cách AI, nhân loại và chiến lược hội tụ để định hình lại, một lần nữa, tương lai của công việc. Đăng ký ngay.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Blog viral của Matt Shumer về tác động sắp tới của AI đối với nhân viên tri thức dựa trên những giả định sai lầm
Influencer AI Matt Shumer đã viết một bài blog lan truyền trên X về tiềm năng của AI trong việc gây gián đoạn và cuối cùng tự động hóa hầu hết các công việc liên quan đến kiến thức, thu hút hơn 55 triệu lượt xem trong 24 giờ qua.
Bài luận dài 5.000 từ của Shumer chắc chắn đã chạm vào dây thần kinh. Viết với giọng thở hổn hển, bài blog được xây dựng như một lời cảnh báo gửi đến bạn bè và gia đình về việc công việc của họ sắp bị thay đổi một cách căn bản. (Fortune cũng đã đăng tải một phiên bản chỉnh sửa của bài đăng của Shumer như một bài bình luận.)
“Vào ngày 5 tháng 2, hai phòng lab AI lớn đã phát hành các mô hình mới cùng ngày: GPT-5.3 Codex từ OpenAI, và Opus 4.6 từ Anthropic,” ông viết. “Và điều gì đó đã bật lên. Không giống như một công tắc sáng… mà giống như khoảnh khắc bạn nhận ra nước đã dâng lên quanh bạn và giờ đã đến ngực.”
Shumer nói rằng các lập trình viên là chú chim cảnh báo trong mỏ than cho mọi ngành nghề khác. “Kinh nghiệm mà các công nhân công nghệ đã trải qua trong năm qua, khi chứng kiến AI từ ‘công cụ hỗ trợ’ chuyển thành ‘làm tốt hơn tôi,’ chính là trải nghiệm mà tất cả những người khác sắp phải đối mặt,” ông viết. “Luật pháp, tài chính, y tế, kế toán, tư vấn, viết lách, thiết kế, phân tích, dịch vụ khách hàng. Không phải trong mười năm nữa. Những người xây dựng các hệ thống này nói rằng trong vòng từ một đến năm năm. Một số nói còn ít hơn. Và dựa trên những gì tôi đã thấy chỉ trong vài tháng gần đây, tôi nghĩ ‘ít hơn’ có khả năng cao hơn.”
Nhưng mặc dù tính lan truyền của nó, tuyên bố của Shumer rằng những gì đã xảy ra với lập trình là phần mở đầu cho những gì sẽ xảy ra trong các lĩnh vực khác—và, quan trọng nhất, rằng điều này sẽ xảy ra chỉ trong vài năm—dường như tôi không đồng ý. Và tôi viết điều này với tư cách là người đã viết một cuốn sách (Mastering AI: A Survival Guide to Our Superpowered Future) dự đoán rằng AI sẽ biến đổi lớn công việc dựa trên kiến thức vào năm 2029, điều mà tôi vẫn tin tưởng. Tôi chỉ đơn giản không nghĩ quá trình tự động hóa hoàn toàn các quy trình mà chúng ta bắt đầu thấy trong lập trình sẽ đến với các lĩnh vực khác nhanh như Shumer nói. Anh ấy có thể đúng về hướng đi, nhưng giọng điệu đáng sợ trong bài viết của anh ấy khiến tôi cảm thấy như đang gieo rắc nỗi sợ hãi, và phần lớn dựa trên những giả định sai lầm.
Video đề xuất
Không phải tất cả công việc dựa trên kiến thức đều giống như phát triển phần mềm
Shumer nói rằng lý do tại sao mã nguồn là lĩnh vực mà khả năng tự hành có ảnh hưởng lớn nhất cho đến nay là vì các công ty AI đã dành nhiều sự chú ý đến nó. Họ làm vậy, theo Shumer, vì các công ty mô hình tiên phong này xem phát triển phần mềm tự hành là chìa khóa cho chính doanh nghiệp của họ, cho phép các mô hình AI giúp xây dựng thế hệ tiếp theo của các mô hình AI. Trong điều này, cược của các công ty AI dường như đang có kết quả khả quan: tốc độ họ tạo ra các mô hình tốt hơn đã tăng rõ rệt trong năm qua. Và cả OpenAI lẫn Anthropic đều nói rằng mã nguồn đằng sau các mô hình AI mới nhất của họ phần lớn do AI tự viết.
Shumer nói rằng trong khi lập trình là chỉ số dẫn đầu, cùng hiệu suất tăng trưởng trong lập trình cũng xuất hiện trong các lĩnh vực khác, mặc dù đôi khi muộn hơn khoảng một năm so với sự tiến bộ trong lập trình. (Shumer không cung cấp lời giải thích rõ ràng về lý do tại sao có thể tồn tại sự chậm trễ này mặc dù ông ngụ ý rằng đó đơn giản là do các công ty mô hình AI tối ưu hóa cho lập trình trước rồi sau đó mới cải thiện các mô hình trong các lĩnh vực khác.)
Nhưng điều mà Shumer không nói là một lý do khác khiến tiến trình tự động hóa phát triển nhanh hơn trong lĩnh vực phần mềm là vì mã nguồn có một số chỉ số định lượng về chất lượng mà các lĩnh vực khác hoàn toàn không có. Trong lập trình, nếu mã nguồn thực sự tệ, nó sẽ không biên dịch được. Mã kém còn có thể thất bại trong các bài kiểm tra đơn vị mà các tác nhân AI lập trình có thể thực hiện. (Shumer không đề cập rằng các tác nhân lập trình ngày nay đôi khi nói dối về việc đã thực hiện các bài kiểm tra đơn vị—đây là một trong nhiều lý do khiến phát triển phần mềm tự động không hoàn hảo.)
Nhiều nhà phát triển nói rằng mã mà AI viết ra thường đủ tốt để vượt qua các bài kiểm tra cơ bản này nhưng vẫn chưa thực sự tốt: nó thiếu hiệu quả, kém tinh tế, và quan trọng nhất, không an toàn, mở ra rủi ro về an ninh mạng cho tổ chức sử dụng. Nhưng trong lĩnh vực lập trình vẫn còn một số cách để xây dựng các tác nhân AI tự hành nhằm giải quyết một số vấn đề này. Mô hình có thể tạo ra các tác nhân phụ kiểm tra mã của nó về các lỗ hổng bảo mật hoặc phê bình mã về độ hiệu quả. Vì mã nguồn phần mềm có thể được kiểm tra trong các môi trường ảo, có nhiều cách để tự động hóa quá trình học tăng cường—nơi một tác nhân học hỏi qua trải nghiệm để tối đa hóa phần thưởng, chẳng hạn như điểm trong một trò chơi—mà các công ty AI sử dụng để định hình hành vi của các mô hình AI sau khi huấn luyện ban đầu. Điều này có nghĩa là việc tinh chỉnh các tác nhân lập trình có thể được thực hiện tự động quy mô lớn.
Đánh giá chất lượng trong nhiều lĩnh vực công việc dựa trên kiến thức khác còn phức tạp hơn nhiều. Không có trình biên dịch cho luật pháp, không có bài kiểm tra đơn vị cho một kế hoạch điều trị y tế, không có chỉ số rõ ràng về mức độ tốt của một chiến dịch marketing trước khi thử nghiệm trên người tiêu dùng. Trong các lĩnh vực khác, việc thu thập đủ dữ liệu từ các chuyên gia về “điều tốt” trông như thế nào còn khó hơn nhiều. Các công ty AI nhận thức rõ họ gặp vấn đề trong việc thu thập loại dữ liệu này. Đó là lý do tại sao họ hiện đang trả hàng triệu đô la cho các công ty như Mercor, những công ty này lại bỏ ra số tiền lớn để tuyển dụng các kế toán, chuyên gia tài chính, luật sư và bác sĩ để cung cấp phản hồi về các kết quả của AI nhằm giúp các công ty AI huấn luyện mô hình tốt hơn.
Thật vậy, có các tiêu chuẩn đánh giá cho thấy các mô hình AI mới nhất đang tiến bộ nhanh chóng trong các nhiệm vụ chuyên nghiệp ngoài lĩnh vực lập trình. Một trong những tiêu chuẩn tốt nhất là benchmark GDPVal của OpenAI. Nó cho thấy các mô hình tiên phong có thể đạt mức ngang bằng với các chuyên gia con người trong một loạt các nhiệm vụ chuyên nghiệp, từ công việc pháp lý phức tạp đến sản xuất và chăm sóc sức khỏe. Cho đến nay, kết quả của các mô hình mà OpenAI và Anthropic phát hành tuần trước vẫn chưa có kết quả chính thức. Nhưng đối với các mô hình tiền nhiệm, Claude Opus 4.5 và GPT-5.2, chúng đạt mức ngang bằng với các chuyên gia con người trong nhiều nhiệm vụ đa dạng, và vượt qua các chuyên gia trong nhiều lĩnh vực.
Vậy điều này có thể khiến Shumer đúng không? Chưa hẳn vậy. Thật ra, trong nhiều ngành nghề, “điều tốt” trông như thế nào rất mang tính chủ quan. Các chuyên gia con người chỉ đồng thuận về đánh giá các kết quả của AI khoảng 71% thời gian. Hệ thống chấm điểm tự động của OpenAI cho GDPVal còn có độ biến động lớn hơn, chỉ đồng thuận về đánh giá khoảng 66%. Vì vậy, các con số tiêu đề về khả năng của AI trong các nhiệm vụ chuyên nghiệp có thể có sai số khá lớn.
Doanh nghiệp cần độ tin cậy, quản trị và khả năng kiểm tra
Sự biến động này là một trong những lý do khiến các doanh nghiệp còn e dè trong việc triển khai các quy trình tự động hoàn toàn. Không chỉ vì kết quả của mô hình AI có thể sai sót. Mà còn vì, như benchmark GDPVal cho thấy, tương đương với một bài kiểm tra đơn vị tự động trong nhiều bối cảnh chuyên nghiệp có thể cho ra kết quả sai lệch tới một phần ba số lần. Hầu hết các công ty không thể chấp nhận rủi ro này, đặc biệt là khi công việc chất lượng kém có thể bị gửi đi trong một phần ba các trường hợp. Rủi ro này quá lớn. Đôi khi, rủi ro chỉ là về uy tín. Trong những trường hợp khác, nó có thể dẫn đến mất doanh thu ngay lập tức. Nhưng trong nhiều nhiệm vụ chuyên nghiệp, hậu quả của một quyết định sai còn nghiêm trọng hơn: bị xử phạt, kiện tụng, mất giấy phép, mất bảo hiểm, và thậm chí là nguy cơ gây hại thể chất hoặc tử vong—đôi khi đối với số lượng lớn người.
Hơn nữa, việc giữ một con người trong vòng kiểm duyệt để xem xét các kết quả tự động là một vấn đề phức tạp. Các mô hình AI ngày nay thực sự ngày càng tốt hơn. Các ảo tưởng xảy ra ít hơn. Nhưng điều đó chỉ làm cho vấn đề trở nên tồi tệ hơn. Khi lỗi do AI tạo ra ít đi, các người xem xét con người trở nên chủ quan. Các lỗi của AI trở nên khó phát hiện hơn. AI rất giỏi trong việc tự tin sai lầm và trình bày kết quả hoàn hảo về hình thức nhưng thiếu nội dung. Điều này bỏ qua một số tiêu chí giả định mà con người dùng để điều chỉnh mức độ cảnh giác của mình. Các mô hình AI thường thất bại theo những cách mà con người không làm, điều này khiến việc phòng ngừa lỗi do AI gây ra trở nên khó khăn hơn.
Vì tất cả những lý do này, cho đến khi các bài kiểm tra tự động tương đương với phát triển phần mềm được phát triển cho các lĩnh vực chuyên nghiệp hơn, việc triển khai các quy trình AI tự động trong nhiều bối cảnh công việc dựa trên kiến thức sẽ quá rủi ro đối với phần lớn các doanh nghiệp. AI sẽ vẫn là trợ lý hoặc cộng tác viên của các nhân viên kiến thức con người trong nhiều trường hợp, chứ không phải tự động hóa hoàn toàn công việc của họ.
Ngoài ra còn có những lý do khác khiến loại tự động hóa mà các nhà phát triển phần mềm quan sát khó có thể áp dụng cho các lĩnh vực kiến thức khác. Trong nhiều trường hợp, các doanh nghiệp không thể cung cấp cho các tác nhân AI quyền truy cập vào các công cụ và hệ thống dữ liệu cần thiết để thực hiện các quy trình tự động. Đáng chú ý là những người ủng hộ nhiệt tình nhất của tự động hóa AI cho đến nay là các nhà phát triển làm việc độc lập hoặc cho các startup thuần AI. Những lập trình viên này thường không bị ràng buộc bởi các hệ thống cũ và nợ công nghệ, và thường không phải đối mặt với nhiều hệ thống quản trị và tuân thủ.
Các tổ chức lớn hiện nay thường thiếu các phương pháp để liên kết các nguồn dữ liệu và công cụ phần mềm với nhau. Trong những trường hợp khác, lo ngại về rủi ro an ninh và quản trị khiến các doanh nghiệp lớn, đặc biệt trong các ngành bị quy định chặt chẽ như ngân hàng, tài chính, luật pháp và y tế, không muốn tự động hóa nếu không có các đảm bảo chắc chắn về độ tin cậy của kết quả và có quy trình giám sát, quản lý, kiểm tra kết quả đó. Các hệ thống để làm điều này hiện còn sơ khai. Cho đến khi chúng trở nên trưởng thành và mạnh mẽ hơn nhiều, đừng mong đợi các doanh nghiệp sẽ tự động hóa hoàn toàn việc sản xuất các kết quả quan trọng về mặt kinh doanh hoặc có quy định pháp luật.
Phê bình cho rằng Shumer không trung thực về các thất bại của LLM
Tôi không phải là người duy nhất nhận thấy phân tích của Shumer có nhiều điểm sai sót. Gary Marcus, giáo sư danh dự về khoa học nhận thức tại Đại học New York, người đã trở thành một trong những người hoài nghi hàng đầu về các mô hình ngôn ngữ lớn ngày nay, nói với tôi rằng bài đăng trên X của Shumer là “lời thổi phồng mang tính vũ khí hóa.” Và ông chỉ ra các vấn đề trong cả những lập luận của Shumer về phát triển phần mềm tự hành.
“Ông ấy không cung cấp dữ liệu thực nào để hỗ trợ cho tuyên bố rằng các hệ thống mã mới nhất có thể viết ra các ứng dụng phức tạp mà không mắc lỗi,” Marcus nói.
Ông chỉ ra rằng Shumer đã hiểu sai một tiêu chuẩn nổi tiếng của tổ chức đánh giá AI METR, cố gắng đo khả năng lập trình tự hành của AI, cho thấy khả năng của AI đang tăng gấp đôi mỗi bảy tháng. Marcus lưu ý rằng Shumer không đề cập rằng tiêu chuẩn này có hai ngưỡng chính xác là 50% và 80%. Nhưng hầu hết các doanh nghiệp không quan tâm đến một hệ thống thất bại một nửa số lần, hoặc thậm chí thất bại trong một trong năm lần thử.
“Không có hệ thống AI nào có thể làm chính xác mọi nhiệm vụ dài năm giờ mà con người làm mà không mắc lỗi, hoặc gần như vậy, nhưng bạn sẽ không biết điều đó khi đọc blog của Shumer, vốn bỏ qua tất cả các ảo tưởng và lỗi ngớ ngẩn phổ biến trong cuộc sống hàng ngày,” Marcus nói.
Ông cũng lưu ý rằng Shumer không trích dẫn các nghiên cứu gần đây của Caltech và Stanford về các lỗi lý luận trong các mô hình AI tiên tiến. Và ông chỉ ra rằng Shumer đã từng bị bắt gặp trước đó đưa ra những tuyên bố phóng đại về khả năng của một mô hình AI mà ông đã huấn luyện. “Ông ấy thích bán hàng lớn. Điều đó không có nghĩa là chúng ta nên coi trọng ông ấy,” Marcus nói.
Các nhà phê bình khác của blog Shumer chỉ ra rằng phân tích kinh tế của ông ấy thiếu tính lịch sử. Mọi cuộc cách mạng công nghệ khác đều tạo ra nhiều việc làm hơn là loại bỏ chúng về lâu dài. Connor Boyack, chủ tịch Viện Libertas, một tổ chức nghiên cứu chính sách tại Utah, đã viết một bài blog phản đối toàn diện lập luận này.
Vì vậy, đúng vậy, AI có thể đang chuẩn bị để biến đổi công việc. Nhưng việc tự động hóa hoàn toàn các nhiệm vụ như một số nhà phát triển phần mềm bắt đầu quan sát có thể thực hiện được cho một số nhiệm vụ? Đối với phần lớn các nhân viên kiến thức, đặc biệt là những người làm việc trong các tổ chức lớn, điều đó sẽ mất nhiều thời gian hơn nhiều so với những gì Shumer nói.
Tham gia cùng chúng tôi tại Hội nghị Đổi mới Nơi làm việc của Fortune 19–20 tháng 5, 2026, tại Atlanta. Kỷ nguyên mới của đổi mới nơi làm việc đã bắt đầu—và quy tắc cũ đang được viết lại. Tại sự kiện độc quyền, năng lượng cao này, các nhà lãnh đạo sáng tạo nhất thế giới sẽ tụ họp để khám phá cách AI, nhân loại và chiến lược hội tụ để định hình lại, một lần nữa, tương lai của công việc. Đăng ký ngay.