Influencer AI Matt Shumer menulis sebuah blog viral di X tentang potensi AI untuk mengganggu, dan akhirnya mengotomatisasi, hampir semua pekerjaan berbasis pengetahuan yang telah mendapatkan lebih dari 55 juta tampilan dalam 24 jam terakhir. Esai Shumer yang terdiri dari 5.000 kata tentu saja menyentuh saraf. Ditulis dengan nada yang terburu-buru, blog ini disusun sebagai peringatan kepada teman dan keluarga tentang bagaimana pekerjaan mereka akan segera mengalami perubahan besar. (Fortune juga memuat versi adaptasi dari postingan Shumer sebagai artikel komentar.) “Pada 5 Februari, dua laboratorium AI besar merilis model baru pada hari yang sama: GPT-5.3 Codex dari OpenAI, dan Opus 4.6 dari Anthropic,” tulisnya. “Dan sesuatu klik. Bukan seperti saklar lampu… lebih seperti saat kamu menyadari air telah naik di sekitarmu dan sekarang mencapai dadamu.” Shumer mengatakan bahwa programmer adalah burung kenari di tambang batu bara untuk semua profesi lainnya. “Pengalaman yang dialami para pekerja teknologi selama setahun terakhir, menyaksikan AI beralih dari ‘alat yang membantu’ menjadi ‘melakukan pekerjaan saya lebih baik dari saya,’ adalah pengalaman yang akan dialami semua orang,” tulisnya. “Hukum, keuangan, kedokteran, akuntansi, konsultasi, penulisan, desain, analisis, layanan pelanggan. Tidak dalam sepuluh tahun. Orang-orang yang membangun sistem ini mengatakan satu sampai lima tahun. Beberapa bahkan kurang. Dan berdasarkan apa yang saya lihat dalam beberapa bulan terakhir, saya rasa ‘kurang’ lebih mungkin.” Namun, meskipun viral, pernyataan Shumer bahwa apa yang terjadi dengan pengkodean adalah prekuel untuk apa yang akan terjadi di bidang lain—dan, yang penting, bahwa ini akan terjadi dalam beberapa tahun—sepertinya salah bagi saya. Dan saya menulis ini sebagai seseorang yang menulis buku (Mastering AI: A Survival Guide to Our Superpowered Future) yang memprediksi AI akan secara besar-besaran mengubah pekerjaan berbasis pengetahuan pada tahun 2029, sesuatu yang masih saya yakini. Saya hanya tidak berpikir otomatisasi penuh dari proses yang mulai kita lihat dalam pengkodean akan datang ke bidang lain secepat yang diklaim Shumer. Dia mungkin benar secara arah, tetapi nada mengerikan dari pesannya tampak seperti menakut-nakuti, dan sebagian besar didasarkan pada asumsi yang keliru. Video yang Disarankan * * * Tidak semua pekerjaan berbasis pengetahuan seperti pengembangan perangkat lunak ------------------------------------------------------- Shumer mengatakan bahwa alasan mengapa kode menjadi bidang di mana kemampuan agen otonomik paling berdampak sejauh ini adalah karena perusahaan AI telah memberikan perhatian besar padanya. Mereka melakukannya, kata Shumer, karena perusahaan model frontier ini melihat pengembangan perangkat lunak otonom sebagai kunci bagi bisnis mereka sendiri, memungkinkan model AI membantu membangun generasi berikutnya dari model AI. Dalam hal ini, taruhan perusahaan AI tampaknya membuahkan hasil: kecepatan mereka dalam menghasilkan model yang lebih baik meningkat secara signifikan dalam setahun terakhir. Dan baik OpenAI maupun Anthropic menyatakan bahwa kode di balik model AI terbaru mereka sebagian besar ditulis oleh AI itu sendiri. Shumer mengatakan bahwa meskipun pengkodean adalah indikator utama, peningkatan performa yang terlihat dalam pengkodean juga muncul di bidang lain, meskipun kadang-kadang sekitar satu tahun lebih lambat dari peningkatan dalam pengkodean. (Shumer tidak memberikan penjelasan yang meyakinkan mengapa penundaan ini mungkin terjadi, meskipun dia menyiratkan bahwa ini hanya karena perusahaan model AI mengutamakan pengkodean terlebih dahulu dan kemudian akhirnya memperbaiki model di bidang lain.) Tapi apa yang tidak dikatakan Shumer adalah bahwa alasan lain mengapa kemajuan dalam mengotomatisasi pengembangan perangkat lunak lebih cepat daripada di bidang lain adalah karena pengkodean memiliki beberapa metrik kuantitatif kualitas yang tidak ada di bidang lain. Dalam pemrograman, jika kode sangat buruk, kode tersebut tidak akan bisa dikompilasi sama sekali. Kode yang tidak memadai juga mungkin gagal dalam berbagai pengujian unit yang dapat dilakukan oleh agen pengkodean AI. (Shumer tidak menyebutkan bahwa agen pengkodean saat ini kadang berbohong tentang melakukan pengujian unit—yang merupakan salah satu alasan mengapa pengembangan perangkat lunak otomatis tidak sepenuhnya pasti.) Banyak pengembang mengatakan bahwa kode yang ditulis AI sering cukup baik untuk melewati pengujian dasar ini tetapi tetap tidak sangat bagus: tidak efisien, tidak elegan, dan yang paling penting, tidak aman, membuka risiko keamanan siber bagi organisasi yang menggunakannya. Tetapi dalam pengkodean, masih ada beberapa cara untuk membangun agen AI otonom untuk mengatasi beberapa masalah ini. Model dapat memunculkan sub-agen yang memeriksa kode yang telah dibuatnya untuk kerentanan keamanan siber atau mengkritik kode dari segi efisiensinya. Karena kode perangkat lunak dapat diuji dalam lingkungan virtual, ada banyak cara untuk mengotomatisasi proses pembelajaran penguatan—di mana agen belajar dari pengalaman untuk memaksimalkan suatu hadiah, seperti poin dalam permainan—yang digunakan perusahaan AI untuk membentuk perilaku model AI setelah pelatihan awal. Itu berarti penyempurnaan agen pengkodean dapat dilakukan secara otomatis dan skala besar. Menilai kualitas di banyak bidang pekerjaan berbasis pengetahuan lainnya jauh lebih sulit. Tidak ada compiler untuk hukum, tidak ada pengujian unit untuk rencana pengobatan medis, tidak ada metrik pasti untuk seberapa baik sebuah kampanye pemasaran sebelum diuji pada konsumen. Sangat sulit di bidang lain untuk mengumpulkan data yang cukup dari para ahli profesional tentang apa yang disebut “baik.” Perusahaan AI menyadari mereka memiliki masalah dalam mengumpulkan data semacam ini. Itulah mengapa mereka sekarang membayar jutaan dolar kepada perusahaan seperti Mercor, yang kemudian mengeluarkan biaya besar untuk merekrut akuntan, profesional keuangan, pengacara, dan dokter untuk membantu memberikan umpan balik tentang output AI agar perusahaan AI dapat melatih model mereka dengan lebih baik. Memang benar bahwa ada tolok ukur yang menunjukkan bahwa model AI terbaru membuat kemajuan pesat dalam tugas profesional di luar pengkodean. Salah satu yang terbaik adalah tolok ukur GDPVal dari OpenAI. Ini menunjukkan bahwa model frontier dapat mencapai kesetaraan dengan ahli manusia dalam berbagai tugas profesional, mulai dari pekerjaan hukum yang kompleks hingga manufaktur dan layanan kesehatan. Sampai saat ini, hasilnya belum keluar untuk model yang dirilis OpenAI dan Anthropic minggu lalu. Tetapi untuk pendahulunya, Claude Opus 4.5 dan GPT-5.2, model tersebut mencapai kesetaraan dengan ahli manusia dalam berbagai tugas dan mengalahkan manusia di banyak bidang. Jadi, bukankah ini menunjukkan bahwa Shumer benar? Tidak begitu cepat. Ternyata, di banyak profesi, apa yang disebut “baik” sangat subjektif. Para ahli manusia hanya sepakat tentang penilaian output AI sekitar 71% dari waktu. Sistem penilaian otomatis yang digunakan OpenAI untuk GDPVal bahkan memiliki variansi yang lebih besar, setuju dalam penilaian hanya 66% dari waktu. Jadi, angka-angka headline tentang seberapa baik AI dalam tugas profesional bisa memiliki margin kesalahan yang cukup besar. Perusahaan membutuhkan keandalan, tata kelola, dan auditabilitas ---------------------------------------------------------- Variansi ini adalah salah satu hal yang menghambat perusahaan untuk menerapkan alur kerja otomatis sepenuhnya. Bukan hanya output dari model AI itu sendiri yang mungkin salah. Tetapi, seperti yang disarankan oleh tolok ukur GDPVal, setara dengan pengujian unit otomatis dalam banyak konteks profesional mungkin menghasilkan hasil yang salah sepertiga dari waktu. Kebanyakan perusahaan tidak dapat mentolerir kemungkinan pekerjaan berkualitas buruk dikirimkan sepertiga dari kasusnya. Risikonya terlalu besar. Kadang-kadang, risikonya hanya reputasi. Di lain waktu, bisa berarti kehilangan pendapatan secara langsung. Tetapi dalam banyak tugas profesional, konsekuensi dari keputusan yang salah bisa jauh lebih parah: sanksi profesional, tuntutan hukum, kehilangan lisensi, hilangnya perlindungan asuransi, dan bahkan risiko cedera fisik dan kematian—terkadang untuk banyak orang. Selain itu, mencoba menjaga manusia dalam proses untuk meninjau output otomatis juga bermasalah. Model AI saat ini benar-benar semakin baik. Halusinasi terjadi lebih jarang. Tetapi itu justru membuat masalah menjadi lebih buruk. Saat kesalahan yang dihasilkan AI menjadi kurang sering, reviewer manusia menjadi merasa cukup dan lalai. Kesalahan AI menjadi lebih sulit dideteksi. AI hebat dalam tampil percaya diri salah dan menyajikan hasil yang tampak sempurna secara bentuk tetapi kurang substansi. Itu melewati beberapa kriteria proxy yang digunakan manusia untuk mengkalibrasi tingkat kewaspadaan mereka. Model AI sering gagal dengan cara yang asing bagi manusia saat melakukan tugas yang sama, yang membuat perlindungan terhadap kesalahan yang dihasilkan AI menjadi lebih menantang. Karena semua alasan ini, sampai pengujian otomatis setara dengan pengujian unit dalam pengembangan perangkat lunak dikembangkan untuk bidang profesional yang lebih luas, menerapkan alur kerja AI otomatis dalam banyak konteks pekerjaan berbasis pengetahuan akan terlalu berisiko bagi kebanyakan perusahaan. AI akan tetap menjadi asisten atau kopilot bagi pekerja pengetahuan manusia dalam banyak kasus, daripada sepenuhnya mengotomatisasi pekerjaan mereka. Ada juga alasan lain mengapa jenis otomatisasi yang diamati pengembang perangkat lunak ini tidak mungkin untuk kategori pekerjaan berbasis pengetahuan lainnya. Dalam banyak kasus, perusahaan tidak dapat memberi agen AI akses ke alat dan sistem data yang mereka perlukan untuk menjalankan alur kerja otomatis. Sangat menarik bahwa pendukung terbesar otomatisasi AI sejauh ini adalah pengembang yang bekerja sendiri atau untuk startup berbasis AI. Para pengembang perangkat lunak ini sering kali tidak terbebani oleh sistem warisan dan utang teknologi, dan sering kali tidak memiliki banyak sistem tata kelola dan kepatuhan untuk dihadapi. Organisasi besar saat ini sering kekurangan cara menghubungkan sumber data dan alat perangkat lunak secara bersamaan. Dalam kasus lain, kekhawatiran tentang risiko keamanan dan tata kelola berarti perusahaan besar, terutama di sektor yang diatur seperti perbankan, keuangan, hukum, dan layanan kesehatan, enggan mengotomatisasi tanpa jaminan yang sangat kuat bahwa hasilnya akan dapat diandalkan dan ada proses untuk memantau, mengelola, dan mengaudit hasilnya. Sistem untuk melakukan ini saat ini masih primitif. Sampai mereka menjadi jauh lebih matang dan kokoh, jangan harap perusahaan akan sepenuhnya mengotomatisasi produksi output penting bisnis atau yang diatur. Kritik mengatakan Shumer tidak jujur tentang kegagalan LLM --------------------------------------------------- Saya bukan satu-satunya yang menemukan analisis Shumer keliru. Gary Marcus, profesor emeritus ilmu kognitif di New York University yang menjadi salah satu skeptis utama terhadap model bahasa besar saat ini, mengatakan bahwa postingan Shumer di X adalah “hiperbola yang diperalat.” Dan dia menunjukkan masalah bahkan dengan argumen Shumer tentang pengembangan perangkat lunak otomatis. “Dia tidak memberikan data nyata untuk mendukung klaim bahwa sistem pengkodean terbaru dapat menulis seluruh aplikasi kompleks tanpa membuat kesalahan,” kata Marcus. Dia menunjukkan bahwa Shumer salah menafsirkan tolok ukur terkenal dari organisasi evaluasi AI METR yang mencoba mengukur kemampuan pengkodean otonom AI yang menyarankan bahwa kemampuan AI berlipat ganda setiap tujuh bulan. Marcus mencatat bahwa Shumer gagal menyebutkan bahwa tolok ukur tersebut memiliki dua ambang batas akurasi, 50% dan 80%. Tetapi sebagian besar bisnis tidak tertarik pada sistem yang gagal setengah dari waktu, atau bahkan yang gagal satu dari lima kali percobaan. “Tidak ada sistem AI yang dapat secara andal menyelesaikan setiap tugas lima jam yang dilakukan manusia tanpa kesalahan, atau bahkan mendekati, tetapi kamu tidak akan tahu itu dari membaca blog Shumer, yang sebagian besar mengabaikan semua halusinasi dan kesalahan bodoh yang sangat umum dalam pengalaman sehari-hari,” kata Marcus. Dia juga mencatat bahwa Shumer tidak menyebutkan penelitian terbaru dari Caltech dan Stanford yang menguraikan berbagai kesalahan penalaran dalam model AI canggih. Dan dia menunjukkan bahwa Shumer sebelumnya pernah tertangkap membuat klaim berlebihan tentang kemampuan sebuah model AI yang dia latih. “Dia suka menjual besar-besaran. Itu tidak berarti kita harus menganggapnya serius,” kata Marcus. Kritik lain terhadap blog Shumer menunjukkan bahwa analisis ekonominya tidak bersejarah. Revolusi teknologi lain dalam jangka panjang justru menciptakan lebih banyak pekerjaan daripada yang dihilangkan. Connor Boyack, presiden Libertas Institute, sebuah lembaga pemikir kebijakan di Utah, menulis sebuah postingan blog balasan yang berargumen demikian. Jadi, ya, AI mungkin siap mengubah pekerjaan. Tetapi jenis otomatisasi tugas penuh yang mulai diamati beberapa pengembang perangkat lunak itu mungkin untuk beberapa tugas? Untuk sebagian besar pekerja pengetahuan, terutama yang terbenam dalam organisasi besar, itu akan jauh lebih lama dari yang dikira Shumer. Bergabunglah dengan kami di Fortune Workplace Innovation Summit 19–20 Mei 2026, di Atlanta. Era baru inovasi tempat kerja telah tiba—dan buku panduan lama sedang ditulis ulang. Dalam acara eksklusif dan penuh energi ini, para pemimpin paling inovatif di dunia akan berkumpul untuk menjelajahi bagaimana AI, manusia, dan strategi bersatu kembali untuk mendefinisikan masa depan pekerjaan. Daftar sekarang.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Blog viral Matt Shumer tentang dampak mendatang AI terhadap pekerja pengetahuan didasarkan pada asumsi yang keliru
Influencer AI Matt Shumer menulis sebuah blog viral di X tentang potensi AI untuk mengganggu, dan akhirnya mengotomatisasi, hampir semua pekerjaan berbasis pengetahuan yang telah mendapatkan lebih dari 55 juta tampilan dalam 24 jam terakhir. Esai Shumer yang terdiri dari 5.000 kata tentu saja menyentuh saraf. Ditulis dengan nada yang terburu-buru, blog ini disusun sebagai peringatan kepada teman dan keluarga tentang bagaimana pekerjaan mereka akan segera mengalami perubahan besar. (Fortune juga memuat versi adaptasi dari postingan Shumer sebagai artikel komentar.) “Pada 5 Februari, dua laboratorium AI besar merilis model baru pada hari yang sama: GPT-5.3 Codex dari OpenAI, dan Opus 4.6 dari Anthropic,” tulisnya. “Dan sesuatu klik. Bukan seperti saklar lampu… lebih seperti saat kamu menyadari air telah naik di sekitarmu dan sekarang mencapai dadamu.” Shumer mengatakan bahwa programmer adalah burung kenari di tambang batu bara untuk semua profesi lainnya. “Pengalaman yang dialami para pekerja teknologi selama setahun terakhir, menyaksikan AI beralih dari ‘alat yang membantu’ menjadi ‘melakukan pekerjaan saya lebih baik dari saya,’ adalah pengalaman yang akan dialami semua orang,” tulisnya. “Hukum, keuangan, kedokteran, akuntansi, konsultasi, penulisan, desain, analisis, layanan pelanggan. Tidak dalam sepuluh tahun. Orang-orang yang membangun sistem ini mengatakan satu sampai lima tahun. Beberapa bahkan kurang. Dan berdasarkan apa yang saya lihat dalam beberapa bulan terakhir, saya rasa ‘kurang’ lebih mungkin.” Namun, meskipun viral, pernyataan Shumer bahwa apa yang terjadi dengan pengkodean adalah prekuel untuk apa yang akan terjadi di bidang lain—dan, yang penting, bahwa ini akan terjadi dalam beberapa tahun—sepertinya salah bagi saya. Dan saya menulis ini sebagai seseorang yang menulis buku (Mastering AI: A Survival Guide to Our Superpowered Future) yang memprediksi AI akan secara besar-besaran mengubah pekerjaan berbasis pengetahuan pada tahun 2029, sesuatu yang masih saya yakini. Saya hanya tidak berpikir otomatisasi penuh dari proses yang mulai kita lihat dalam pengkodean akan datang ke bidang lain secepat yang diklaim Shumer. Dia mungkin benar secara arah, tetapi nada mengerikan dari pesannya tampak seperti menakut-nakuti, dan sebagian besar didasarkan pada asumsi yang keliru. Video yang Disarankan * * * Tidak semua pekerjaan berbasis pengetahuan seperti pengembangan perangkat lunak ------------------------------------------------------- Shumer mengatakan bahwa alasan mengapa kode menjadi bidang di mana kemampuan agen otonomik paling berdampak sejauh ini adalah karena perusahaan AI telah memberikan perhatian besar padanya. Mereka melakukannya, kata Shumer, karena perusahaan model frontier ini melihat pengembangan perangkat lunak otonom sebagai kunci bagi bisnis mereka sendiri, memungkinkan model AI membantu membangun generasi berikutnya dari model AI. Dalam hal ini, taruhan perusahaan AI tampaknya membuahkan hasil: kecepatan mereka dalam menghasilkan model yang lebih baik meningkat secara signifikan dalam setahun terakhir. Dan baik OpenAI maupun Anthropic menyatakan bahwa kode di balik model AI terbaru mereka sebagian besar ditulis oleh AI itu sendiri. Shumer mengatakan bahwa meskipun pengkodean adalah indikator utama, peningkatan performa yang terlihat dalam pengkodean juga muncul di bidang lain, meskipun kadang-kadang sekitar satu tahun lebih lambat dari peningkatan dalam pengkodean. (Shumer tidak memberikan penjelasan yang meyakinkan mengapa penundaan ini mungkin terjadi, meskipun dia menyiratkan bahwa ini hanya karena perusahaan model AI mengutamakan pengkodean terlebih dahulu dan kemudian akhirnya memperbaiki model di bidang lain.) Tapi apa yang tidak dikatakan Shumer adalah bahwa alasan lain mengapa kemajuan dalam mengotomatisasi pengembangan perangkat lunak lebih cepat daripada di bidang lain adalah karena pengkodean memiliki beberapa metrik kuantitatif kualitas yang tidak ada di bidang lain. Dalam pemrograman, jika kode sangat buruk, kode tersebut tidak akan bisa dikompilasi sama sekali. Kode yang tidak memadai juga mungkin gagal dalam berbagai pengujian unit yang dapat dilakukan oleh agen pengkodean AI. (Shumer tidak menyebutkan bahwa agen pengkodean saat ini kadang berbohong tentang melakukan pengujian unit—yang merupakan salah satu alasan mengapa pengembangan perangkat lunak otomatis tidak sepenuhnya pasti.) Banyak pengembang mengatakan bahwa kode yang ditulis AI sering cukup baik untuk melewati pengujian dasar ini tetapi tetap tidak sangat bagus: tidak efisien, tidak elegan, dan yang paling penting, tidak aman, membuka risiko keamanan siber bagi organisasi yang menggunakannya. Tetapi dalam pengkodean, masih ada beberapa cara untuk membangun agen AI otonom untuk mengatasi beberapa masalah ini. Model dapat memunculkan sub-agen yang memeriksa kode yang telah dibuatnya untuk kerentanan keamanan siber atau mengkritik kode dari segi efisiensinya. Karena kode perangkat lunak dapat diuji dalam lingkungan virtual, ada banyak cara untuk mengotomatisasi proses pembelajaran penguatan—di mana agen belajar dari pengalaman untuk memaksimalkan suatu hadiah, seperti poin dalam permainan—yang digunakan perusahaan AI untuk membentuk perilaku model AI setelah pelatihan awal. Itu berarti penyempurnaan agen pengkodean dapat dilakukan secara otomatis dan skala besar. Menilai kualitas di banyak bidang pekerjaan berbasis pengetahuan lainnya jauh lebih sulit. Tidak ada compiler untuk hukum, tidak ada pengujian unit untuk rencana pengobatan medis, tidak ada metrik pasti untuk seberapa baik sebuah kampanye pemasaran sebelum diuji pada konsumen. Sangat sulit di bidang lain untuk mengumpulkan data yang cukup dari para ahli profesional tentang apa yang disebut “baik.” Perusahaan AI menyadari mereka memiliki masalah dalam mengumpulkan data semacam ini. Itulah mengapa mereka sekarang membayar jutaan dolar kepada perusahaan seperti Mercor, yang kemudian mengeluarkan biaya besar untuk merekrut akuntan, profesional keuangan, pengacara, dan dokter untuk membantu memberikan umpan balik tentang output AI agar perusahaan AI dapat melatih model mereka dengan lebih baik. Memang benar bahwa ada tolok ukur yang menunjukkan bahwa model AI terbaru membuat kemajuan pesat dalam tugas profesional di luar pengkodean. Salah satu yang terbaik adalah tolok ukur GDPVal dari OpenAI. Ini menunjukkan bahwa model frontier dapat mencapai kesetaraan dengan ahli manusia dalam berbagai tugas profesional, mulai dari pekerjaan hukum yang kompleks hingga manufaktur dan layanan kesehatan. Sampai saat ini, hasilnya belum keluar untuk model yang dirilis OpenAI dan Anthropic minggu lalu. Tetapi untuk pendahulunya, Claude Opus 4.5 dan GPT-5.2, model tersebut mencapai kesetaraan dengan ahli manusia dalam berbagai tugas dan mengalahkan manusia di banyak bidang. Jadi, bukankah ini menunjukkan bahwa Shumer benar? Tidak begitu cepat. Ternyata, di banyak profesi, apa yang disebut “baik” sangat subjektif. Para ahli manusia hanya sepakat tentang penilaian output AI sekitar 71% dari waktu. Sistem penilaian otomatis yang digunakan OpenAI untuk GDPVal bahkan memiliki variansi yang lebih besar, setuju dalam penilaian hanya 66% dari waktu. Jadi, angka-angka headline tentang seberapa baik AI dalam tugas profesional bisa memiliki margin kesalahan yang cukup besar. Perusahaan membutuhkan keandalan, tata kelola, dan auditabilitas ---------------------------------------------------------- Variansi ini adalah salah satu hal yang menghambat perusahaan untuk menerapkan alur kerja otomatis sepenuhnya. Bukan hanya output dari model AI itu sendiri yang mungkin salah. Tetapi, seperti yang disarankan oleh tolok ukur GDPVal, setara dengan pengujian unit otomatis dalam banyak konteks profesional mungkin menghasilkan hasil yang salah sepertiga dari waktu. Kebanyakan perusahaan tidak dapat mentolerir kemungkinan pekerjaan berkualitas buruk dikirimkan sepertiga dari kasusnya. Risikonya terlalu besar. Kadang-kadang, risikonya hanya reputasi. Di lain waktu, bisa berarti kehilangan pendapatan secara langsung. Tetapi dalam banyak tugas profesional, konsekuensi dari keputusan yang salah bisa jauh lebih parah: sanksi profesional, tuntutan hukum, kehilangan lisensi, hilangnya perlindungan asuransi, dan bahkan risiko cedera fisik dan kematian—terkadang untuk banyak orang. Selain itu, mencoba menjaga manusia dalam proses untuk meninjau output otomatis juga bermasalah. Model AI saat ini benar-benar semakin baik. Halusinasi terjadi lebih jarang. Tetapi itu justru membuat masalah menjadi lebih buruk. Saat kesalahan yang dihasilkan AI menjadi kurang sering, reviewer manusia menjadi merasa cukup dan lalai. Kesalahan AI menjadi lebih sulit dideteksi. AI hebat dalam tampil percaya diri salah dan menyajikan hasil yang tampak sempurna secara bentuk tetapi kurang substansi. Itu melewati beberapa kriteria proxy yang digunakan manusia untuk mengkalibrasi tingkat kewaspadaan mereka. Model AI sering gagal dengan cara yang asing bagi manusia saat melakukan tugas yang sama, yang membuat perlindungan terhadap kesalahan yang dihasilkan AI menjadi lebih menantang. Karena semua alasan ini, sampai pengujian otomatis setara dengan pengujian unit dalam pengembangan perangkat lunak dikembangkan untuk bidang profesional yang lebih luas, menerapkan alur kerja AI otomatis dalam banyak konteks pekerjaan berbasis pengetahuan akan terlalu berisiko bagi kebanyakan perusahaan. AI akan tetap menjadi asisten atau kopilot bagi pekerja pengetahuan manusia dalam banyak kasus, daripada sepenuhnya mengotomatisasi pekerjaan mereka. Ada juga alasan lain mengapa jenis otomatisasi yang diamati pengembang perangkat lunak ini tidak mungkin untuk kategori pekerjaan berbasis pengetahuan lainnya. Dalam banyak kasus, perusahaan tidak dapat memberi agen AI akses ke alat dan sistem data yang mereka perlukan untuk menjalankan alur kerja otomatis. Sangat menarik bahwa pendukung terbesar otomatisasi AI sejauh ini adalah pengembang yang bekerja sendiri atau untuk startup berbasis AI. Para pengembang perangkat lunak ini sering kali tidak terbebani oleh sistem warisan dan utang teknologi, dan sering kali tidak memiliki banyak sistem tata kelola dan kepatuhan untuk dihadapi. Organisasi besar saat ini sering kekurangan cara menghubungkan sumber data dan alat perangkat lunak secara bersamaan. Dalam kasus lain, kekhawatiran tentang risiko keamanan dan tata kelola berarti perusahaan besar, terutama di sektor yang diatur seperti perbankan, keuangan, hukum, dan layanan kesehatan, enggan mengotomatisasi tanpa jaminan yang sangat kuat bahwa hasilnya akan dapat diandalkan dan ada proses untuk memantau, mengelola, dan mengaudit hasilnya. Sistem untuk melakukan ini saat ini masih primitif. Sampai mereka menjadi jauh lebih matang dan kokoh, jangan harap perusahaan akan sepenuhnya mengotomatisasi produksi output penting bisnis atau yang diatur. Kritik mengatakan Shumer tidak jujur tentang kegagalan LLM --------------------------------------------------- Saya bukan satu-satunya yang menemukan analisis Shumer keliru. Gary Marcus, profesor emeritus ilmu kognitif di New York University yang menjadi salah satu skeptis utama terhadap model bahasa besar saat ini, mengatakan bahwa postingan Shumer di X adalah “hiperbola yang diperalat.” Dan dia menunjukkan masalah bahkan dengan argumen Shumer tentang pengembangan perangkat lunak otomatis. “Dia tidak memberikan data nyata untuk mendukung klaim bahwa sistem pengkodean terbaru dapat menulis seluruh aplikasi kompleks tanpa membuat kesalahan,” kata Marcus. Dia menunjukkan bahwa Shumer salah menafsirkan tolok ukur terkenal dari organisasi evaluasi AI METR yang mencoba mengukur kemampuan pengkodean otonom AI yang menyarankan bahwa kemampuan AI berlipat ganda setiap tujuh bulan. Marcus mencatat bahwa Shumer gagal menyebutkan bahwa tolok ukur tersebut memiliki dua ambang batas akurasi, 50% dan 80%. Tetapi sebagian besar bisnis tidak tertarik pada sistem yang gagal setengah dari waktu, atau bahkan yang gagal satu dari lima kali percobaan. “Tidak ada sistem AI yang dapat secara andal menyelesaikan setiap tugas lima jam yang dilakukan manusia tanpa kesalahan, atau bahkan mendekati, tetapi kamu tidak akan tahu itu dari membaca blog Shumer, yang sebagian besar mengabaikan semua halusinasi dan kesalahan bodoh yang sangat umum dalam pengalaman sehari-hari,” kata Marcus. Dia juga mencatat bahwa Shumer tidak menyebutkan penelitian terbaru dari Caltech dan Stanford yang menguraikan berbagai kesalahan penalaran dalam model AI canggih. Dan dia menunjukkan bahwa Shumer sebelumnya pernah tertangkap membuat klaim berlebihan tentang kemampuan sebuah model AI yang dia latih. “Dia suka menjual besar-besaran. Itu tidak berarti kita harus menganggapnya serius,” kata Marcus. Kritik lain terhadap blog Shumer menunjukkan bahwa analisis ekonominya tidak bersejarah. Revolusi teknologi lain dalam jangka panjang justru menciptakan lebih banyak pekerjaan daripada yang dihilangkan. Connor Boyack, presiden Libertas Institute, sebuah lembaga pemikir kebijakan di Utah, menulis sebuah postingan blog balasan yang berargumen demikian. Jadi, ya, AI mungkin siap mengubah pekerjaan. Tetapi jenis otomatisasi tugas penuh yang mulai diamati beberapa pengembang perangkat lunak itu mungkin untuk beberapa tugas? Untuk sebagian besar pekerja pengetahuan, terutama yang terbenam dalam organisasi besar, itu akan jauh lebih lama dari yang dikira Shumer. Bergabunglah dengan kami di Fortune Workplace Innovation Summit 19–20 Mei 2026, di Atlanta. Era baru inovasi tempat kerja telah tiba—dan buku panduan lama sedang ditulis ulang. Dalam acara eksklusif dan penuh energi ini, para pemimpin paling inovatif di dunia akan berkumpul untuk menjelajahi bagaimana AI, manusia, dan strategi bersatu kembali untuk mendefinisikan masa depan pekerjaan. Daftar sekarang.