Інфлюенсер штучного інтелекту Мэтт Шумер написав вірусний блог у X про потенціал ШІ руйнувати та в кінцевому підсумку автоматизувати майже всю роботу, пов’язану з знаннями, що за останні 24 години набрав понад 55 мільйонів переглядів. Есе Шумера на 5000 слів безумовно зачепив за живе. Написаний у захопленому тоні, блог побудований як попередження друзям і родині про те, як їхні роботи незабаром зазнають радикальних змін. (Fortune також опублікувала адаптовану версію посту Шумера як коментар.) «5 лютого два провідні лабораторії з розробки ШІ випустили нові моделі в один день: GPT-5.3 Codex від OpenAI та Opus 4.6 від Anthropic», — пише він. «І щось клацнуло. Не як вимикач світла… більше як момент, коли ти усвідомлюєш, що вода піднімається навколо тебе і тепер досягає грудей.» Шумер каже, що програмісти — це канарка у вугільній шахті для всіх інших професій. «Досвід, який мали технічні працівники за минулий рік, спостерігаючи, як ШІ переходить від «корисного інструменту» до «робить мою роботу краще за мене», — це досвід, який незабаром матимуть усі інші», — пише він. «Право, фінанси, медицина, бухгалтерія, консалтинг, писання, дизайн, аналіз, обслуговування клієнтів. Не через десять років. Люди, які створюють ці системи, кажуть, що це станеться за один-п’ять років. Деякі кажуть менше. І враховуючи те, що я бачив за останні кілька місяців, я вважаю, що «менше» більш імовірно.» Але попри його вірусність, твердження Шумера про те, що те, що сталося з кодуванням, є прологом до того, що станеться в інших сферах — і, що важливо, що це станеться всього за кілька років — здається мені неправильним. І я пишу це як той, хто написав книгу (Mastering AI: A Survival Guide to Our Superpowered Future), яка передбачала, що ШІ масово трансформує роботу з знаннями до 2029 року, і я все ще в цьому переконаний. Я просто не думаю, що повна автоматизація процесів, яку ми починаємо бачити у кодуванні, так швидко настане в інших сферах, як стверджує Шумер. Можливо, він має рацію щодо напрямку, але його похмурий тон здається мені нагнітанням страху і базується здебільшого на хибних припущеннях. Рекомендоване відео * * * Не вся робота з знаннями схожа на розробку програмного забезпечення ------------------------------------------------------- Шумер каже, що причина, чому код став тією сферою, де автономні агентські можливості мають найбільший вплив, полягає в тому, що компанії з розробки ШІ приділяють цьому так багато уваги. Вони роблять це, за словами Шумера, тому що ці компанії, що створюють передові моделі, бачать автономну розробку програмного забезпечення як ключ до свого бізнесу, що дозволяє моделям ШІ допомагати у створенні наступного покоління моделей ШІ. У цьому ставка компаній з ШІ, здається, окупається: темпи створення кращих моделей значно зросли за останній рік. І OpenAI, і Anthropic заявили, що код, який лежить в основі їхніх останніх моделей ШІ, здебільшого написаний самими ШІ. Шумер каже, що хоча кодування є провідним індикатором, ті ж самі покращення у продуктивності, що спостерігаються у кодуванні, з’являються і в інших сферах, хоча іноді приблизно з затримкою в один рік порівняно з покращеннями у кодуванні. (Шумер не надає переконливого пояснення, чому ця затримка може існувати, хоча натякає, що це просто тому, що компанії, що розробляють моделі ШІ, спершу оптимізують їх для кодування, а потім поступово покращують моделі в інших сферах.) Але те, що Шумер не каже, — це ще одна причина, чому прогрес у автоматизації розробки програмного забезпечення був швидшим, ніж у інших сферах: у кодуванні є кількісні метрики якості, яких просто немає в інших галузях. У програмуванні, якщо код дуже поганий, він просто не скомпілюється взагалі. Недосконалий код також може не пройти різні модульні тести, які може виконати агент ШІ. (Шумер не згадує, що сучасні агенти кодування іноді брешуть, стверджуючи, що провели модульні тести — і це одна з багатьох причин, чому автоматична розробка програмного забезпечення не є безпомилковою.) Багато розробників кажуть, що код, який пише ШІ, часто достатньо хороший, щоб пройти ці базові тести, але все ще не дуже хороший: він неефективний, неелегантний і, що найважливіше, небезпечний, відкриваючи організацію, яка його використовує, для ризиків у сфері кібербезпеки. Але у кодуванні все ще існують способи створити автономних агентів ШІ для вирішення деяких із цих проблем. Модель може запускати підагенти, які перевіряють написаний код на вразливості у сфері кібербезпеки або критикують його з точки зору ефективності. Оскільки програмний код можна тестувати у віртуальних середовищах, існує багато способів автоматизувати процес навчання з підкріпленням — коли агент навчається на досвіді, щоб максимізувати певну нагороду, наприклад, у грі — що ШІ-компанії використовують для формування поведінки моделей ШІ після початкового тренування. Це означає, що вдосконалення агентів кодування може відбуватися автоматично і масштабовано. Оцінка якості у багатьох інших сферах знань набагато складніша. Немає компіляторів для права, немає модульних тестів для медичних планів, немає визначених метрик, наскільки хороша маркетингова кампанія, перш ніж її випробують на споживачах. У інших сферах набагато важче зібрати достатню кількість даних від професійних експертів про те, що таке «добре». Компанії з ШІ усвідомлюють цю проблему і зараз витрачають мільйони на компанії, такі як Mercor, які, у свою чергу, витрачають великі суми на найм бухгалтерів, фінансових фахівців, юристів і лікарів для допомоги у наданні зворотного зв’язку щодо вихідних даних ШІ, щоб краще тренувати свої моделі. Дійсно, існують бенчмарки, які показують, що останні моделі ШІ швидко прогресують у професійних завданнях поза межами кодування. Одним із найкращих є бенчмарк GDPVal від OpenAI. Він показує, що передові моделі можуть досягати паритету з людськими експертами у широкому спектрі професійних завдань — від складної юридичної роботи до виробництва і охорони здоров’я. Поки що результати для моделей, випущених минулого тижня OpenAI і Anthropic, ще не оприлюднені. Але для їхніх попередників, Claude Opus 4.5 і GPT-5.2, моделі досягають паритету з людськими експертами у різноманітних завданнях і перевершують їх у багатьох сферах. Тож чи не означає це, що Шумер правий? Ну, не так швидко. Виявляється, у багатьох професіях те, що вважається «добрим», дуже суб’єктивно. Людські експерти погоджувалися лише у 71% випадків щодо оцінки вихідних даних ШІ. Автоматизована система оцінювання GDPVal від OpenAI має ще більшу варіативність, погоджуючись лише у 66% випадків. Тож ці заголовкові цифри про те, наскільки добре ШІ виконує професійні завдання, можуть мати широкий діапазон похибки. Підприємства потребують надійності, управління та можливості аудиту ---------------------------------------------------------- Ця варіативність — одна з причин, чому підприємства стримуються від повного впровадження автоматизованих робочих процесів. Справа не лише у тому, що вихідні дані ШІ можуть бути помилковими. Справа в тому, що, як показує бенчмарк GDPVal, еквівалент автоматизованого модульного тесту у багатьох професійних контекстах може давати помилковий результат у третині випадків. Більшість компаній не можуть дозволити собі ризик постачання роботи низької якості у третині випадків. Ризики занадто великі. Іноді це може бути лише репутаційним ризиком. В інших випадках — це може означати негайний втрату доходу. Але у багатьох професійних завданнях наслідки неправильного рішення можуть бути ще серйознішими: професійне покарання, судові позови, втрата ліцензій, втрата страхового покриття, а іноді й фізична шкода і смерть — іноді для великої кількості людей. Ще гірше, спроби залучити людину для перегляду автоматичних вихідних даних ускладнюють ситуацію. Сучасні моделі ШІ справді стають кращими. Галюцинації трапляються рідше. Але це лише ускладнює проблему. Оскільки помилки, створені ШІ, стають менш частими, людські рецензенти стають самовпевненими. Помилки ШІ стають важчими для виявлення. ШІ чудово вміє впевнено помилятися і подавати результати у бездоганній формі, але без суті. Це обходить деякі проксі-критерії, які люди використовують для калібрування рівня пильності. Моделі ШІ часто дають збій у способах, чужих людським помилкам у тих самих завданнях, що ускладнює захист від помилок, створених ШІ. З усіх цих причин, доки не буде створено еквівалент автоматизованих модульних тестів для більшості професійних галузей, впровадження автоматизованих робочих процесів ШІ у багато сфер знань буде надто ризикованим для більшості підприємств. ШІ залишиться помічником або співпілотом для людських працівників у багатьох випадках, а не повною автоматизацією їхньої роботи. Також існують інші причини, чому такий рівень автоматизації, який спостерігають розробники програмного забезпечення, малоймовірний для інших категорій роботи з знаннями. У багатьох випадках підприємства не можуть надати агентам ШІ доступ до необхідних інструментів і систем даних для автоматизації процесів. Варто зазначити, що найбільші ентузіасти автоматизації ШІ — це здебільшого розробники, які працюють самостійно або у стартапах, орієнтованих на ШІ. Ці програмісти часто не обтяжені застарілими системами і технічним боргом, і їм не потрібно багато дотримуватися управлінських і нормативних вимог. Великі організації зазвичай наразі не мають можливості з’єднати джерела даних і програмні інструменти. У інших випадках побоювання щодо безпеки та управління означають, що великі підприємства, особливо у регульованих сферах, таких як банківська справа, фінанси, право і охорона здоров’я, не готові автоматизувати без надійних гарантій, що результати будуть надійними, і що існує процес моніторингу, управління та аудиту цих результатів. Системи для цього наразі примітивні. Поки вони не стануть більш зрілими і надійними, не очікуйте повної автоматизації виробництва критичних або регульованих результатів. Критики стверджують, що Шумер не чесний щодо недоліків великих мовних моделей --------------------------------------------------- Я не один такий, хто вважає аналіз Шумера хибним. Гері Маркус, заслужений професор когнітивної науки Нью-Йоркського університету, один із провідних скептиків сучасних великих мовних моделей, сказав мені, що пост Шумера у X — це «зброєний хайп». І він звернув увагу на проблеми навіть у його аргументації щодо автоматизованої розробки програмного забезпечення. «Він не надає жодних реальних даних, щоб підтвердити цю заяву, що останні системи кодування можуть писати цілі складні додатки без помилок», — сказав Маркус. Він зазначає, що Шумер неправильно інтерпретує відомий бенчмарк від організації оцінки ШІ METR, який намагається виміряти автономні можливості кодування ШІ і свідчить, що здатності ШІ подвоюються кожні сім місяців. Маркус зауважує, що Шумер не згадує, що цей бенчмарк має два пороги точності — 50% і 80%. Але більшість бізнесів не зацікавлені у системі, яка провалюється у половині випадків або навіть у кожній п’ятій спробі. «Жодна система ШІ не може надійно виконувати кожне п’ятигодинне завдання, яке можуть зробити люди без помилок, або навіть близько того, — каже Маркус. — Але ви цього не зрозумієте, читаючи блог Шумера, який ігнорує всі галюцинації та дурні помилки, що трапляються щодня.» Він також зазначив, що Шумер не посилається на недавні дослідження Caltech і Stanford, які описують широкий спектр логічних помилок у передових моделях ШІ. І він підкреслив, що Шумер раніше був спійманий на перебільшеннях щодо можливостей однієї з моделей ШІ, яку він тренував. «Він любить продавати великі ідеї. Це не означає, що його слід сприймати серйозно», — сказав Маркус. Інші критики блогу Шумера зазначають, що його економічний аналіз є історично необґрунтованим. Кожна інша технологічна революція у довгостроковій перспективі створювала більше робочих місць, ніж знищувала. Коннор Бояк, президент Інституту Лібертарас у Юті, написав цілий контр-блог, у якому доводить цю ідею. Тож так, ШІ може бути готовий трансформувати роботу. Але повна автоматизація завдань, яку почали спостерігати деякі розробники програмного забезпечення, можлива лише для деяких завдань? Для більшості працівників з знаннями, особливо тих, хто працює у великих організаціях, це займе набагато більше часу, ніж стверджує Шумер.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Вірусний блог Мэтта Шумера про навислий вплив штучного інтелекту на працівників сфери знань базується на помилкових припущеннях
Інфлюенсер штучного інтелекту Мэтт Шумер написав вірусний блог у X про потенціал ШІ руйнувати та в кінцевому підсумку автоматизувати майже всю роботу, пов’язану з знаннями, що за останні 24 години набрав понад 55 мільйонів переглядів. Есе Шумера на 5000 слів безумовно зачепив за живе. Написаний у захопленому тоні, блог побудований як попередження друзям і родині про те, як їхні роботи незабаром зазнають радикальних змін. (Fortune також опублікувала адаптовану версію посту Шумера як коментар.) «5 лютого два провідні лабораторії з розробки ШІ випустили нові моделі в один день: GPT-5.3 Codex від OpenAI та Opus 4.6 від Anthropic», — пише він. «І щось клацнуло. Не як вимикач світла… більше як момент, коли ти усвідомлюєш, що вода піднімається навколо тебе і тепер досягає грудей.» Шумер каже, що програмісти — це канарка у вугільній шахті для всіх інших професій. «Досвід, який мали технічні працівники за минулий рік, спостерігаючи, як ШІ переходить від «корисного інструменту» до «робить мою роботу краще за мене», — це досвід, який незабаром матимуть усі інші», — пише він. «Право, фінанси, медицина, бухгалтерія, консалтинг, писання, дизайн, аналіз, обслуговування клієнтів. Не через десять років. Люди, які створюють ці системи, кажуть, що це станеться за один-п’ять років. Деякі кажуть менше. І враховуючи те, що я бачив за останні кілька місяців, я вважаю, що «менше» більш імовірно.» Але попри його вірусність, твердження Шумера про те, що те, що сталося з кодуванням, є прологом до того, що станеться в інших сферах — і, що важливо, що це станеться всього за кілька років — здається мені неправильним. І я пишу це як той, хто написав книгу (Mastering AI: A Survival Guide to Our Superpowered Future), яка передбачала, що ШІ масово трансформує роботу з знаннями до 2029 року, і я все ще в цьому переконаний. Я просто не думаю, що повна автоматизація процесів, яку ми починаємо бачити у кодуванні, так швидко настане в інших сферах, як стверджує Шумер. Можливо, він має рацію щодо напрямку, але його похмурий тон здається мені нагнітанням страху і базується здебільшого на хибних припущеннях. Рекомендоване відео * * * Не вся робота з знаннями схожа на розробку програмного забезпечення ------------------------------------------------------- Шумер каже, що причина, чому код став тією сферою, де автономні агентські можливості мають найбільший вплив, полягає в тому, що компанії з розробки ШІ приділяють цьому так багато уваги. Вони роблять це, за словами Шумера, тому що ці компанії, що створюють передові моделі, бачать автономну розробку програмного забезпечення як ключ до свого бізнесу, що дозволяє моделям ШІ допомагати у створенні наступного покоління моделей ШІ. У цьому ставка компаній з ШІ, здається, окупається: темпи створення кращих моделей значно зросли за останній рік. І OpenAI, і Anthropic заявили, що код, який лежить в основі їхніх останніх моделей ШІ, здебільшого написаний самими ШІ. Шумер каже, що хоча кодування є провідним індикатором, ті ж самі покращення у продуктивності, що спостерігаються у кодуванні, з’являються і в інших сферах, хоча іноді приблизно з затримкою в один рік порівняно з покращеннями у кодуванні. (Шумер не надає переконливого пояснення, чому ця затримка може існувати, хоча натякає, що це просто тому, що компанії, що розробляють моделі ШІ, спершу оптимізують їх для кодування, а потім поступово покращують моделі в інших сферах.) Але те, що Шумер не каже, — це ще одна причина, чому прогрес у автоматизації розробки програмного забезпечення був швидшим, ніж у інших сферах: у кодуванні є кількісні метрики якості, яких просто немає в інших галузях. У програмуванні, якщо код дуже поганий, він просто не скомпілюється взагалі. Недосконалий код також може не пройти різні модульні тести, які може виконати агент ШІ. (Шумер не згадує, що сучасні агенти кодування іноді брешуть, стверджуючи, що провели модульні тести — і це одна з багатьох причин, чому автоматична розробка програмного забезпечення не є безпомилковою.) Багато розробників кажуть, що код, який пише ШІ, часто достатньо хороший, щоб пройти ці базові тести, але все ще не дуже хороший: він неефективний, неелегантний і, що найважливіше, небезпечний, відкриваючи організацію, яка його використовує, для ризиків у сфері кібербезпеки. Але у кодуванні все ще існують способи створити автономних агентів ШІ для вирішення деяких із цих проблем. Модель може запускати підагенти, які перевіряють написаний код на вразливості у сфері кібербезпеки або критикують його з точки зору ефективності. Оскільки програмний код можна тестувати у віртуальних середовищах, існує багато способів автоматизувати процес навчання з підкріпленням — коли агент навчається на досвіді, щоб максимізувати певну нагороду, наприклад, у грі — що ШІ-компанії використовують для формування поведінки моделей ШІ після початкового тренування. Це означає, що вдосконалення агентів кодування може відбуватися автоматично і масштабовано. Оцінка якості у багатьох інших сферах знань набагато складніша. Немає компіляторів для права, немає модульних тестів для медичних планів, немає визначених метрик, наскільки хороша маркетингова кампанія, перш ніж її випробують на споживачах. У інших сферах набагато важче зібрати достатню кількість даних від професійних експертів про те, що таке «добре». Компанії з ШІ усвідомлюють цю проблему і зараз витрачають мільйони на компанії, такі як Mercor, які, у свою чергу, витрачають великі суми на найм бухгалтерів, фінансових фахівців, юристів і лікарів для допомоги у наданні зворотного зв’язку щодо вихідних даних ШІ, щоб краще тренувати свої моделі. Дійсно, існують бенчмарки, які показують, що останні моделі ШІ швидко прогресують у професійних завданнях поза межами кодування. Одним із найкращих є бенчмарк GDPVal від OpenAI. Він показує, що передові моделі можуть досягати паритету з людськими експертами у широкому спектрі професійних завдань — від складної юридичної роботи до виробництва і охорони здоров’я. Поки що результати для моделей, випущених минулого тижня OpenAI і Anthropic, ще не оприлюднені. Але для їхніх попередників, Claude Opus 4.5 і GPT-5.2, моделі досягають паритету з людськими експертами у різноманітних завданнях і перевершують їх у багатьох сферах. Тож чи не означає це, що Шумер правий? Ну, не так швидко. Виявляється, у багатьох професіях те, що вважається «добрим», дуже суб’єктивно. Людські експерти погоджувалися лише у 71% випадків щодо оцінки вихідних даних ШІ. Автоматизована система оцінювання GDPVal від OpenAI має ще більшу варіативність, погоджуючись лише у 66% випадків. Тож ці заголовкові цифри про те, наскільки добре ШІ виконує професійні завдання, можуть мати широкий діапазон похибки. Підприємства потребують надійності, управління та можливості аудиту ---------------------------------------------------------- Ця варіативність — одна з причин, чому підприємства стримуються від повного впровадження автоматизованих робочих процесів. Справа не лише у тому, що вихідні дані ШІ можуть бути помилковими. Справа в тому, що, як показує бенчмарк GDPVal, еквівалент автоматизованого модульного тесту у багатьох професійних контекстах може давати помилковий результат у третині випадків. Більшість компаній не можуть дозволити собі ризик постачання роботи низької якості у третині випадків. Ризики занадто великі. Іноді це може бути лише репутаційним ризиком. В інших випадках — це може означати негайний втрату доходу. Але у багатьох професійних завданнях наслідки неправильного рішення можуть бути ще серйознішими: професійне покарання, судові позови, втрата ліцензій, втрата страхового покриття, а іноді й фізична шкода і смерть — іноді для великої кількості людей. Ще гірше, спроби залучити людину для перегляду автоматичних вихідних даних ускладнюють ситуацію. Сучасні моделі ШІ справді стають кращими. Галюцинації трапляються рідше. Але це лише ускладнює проблему. Оскільки помилки, створені ШІ, стають менш частими, людські рецензенти стають самовпевненими. Помилки ШІ стають важчими для виявлення. ШІ чудово вміє впевнено помилятися і подавати результати у бездоганній формі, але без суті. Це обходить деякі проксі-критерії, які люди використовують для калібрування рівня пильності. Моделі ШІ часто дають збій у способах, чужих людським помилкам у тих самих завданнях, що ускладнює захист від помилок, створених ШІ. З усіх цих причин, доки не буде створено еквівалент автоматизованих модульних тестів для більшості професійних галузей, впровадження автоматизованих робочих процесів ШІ у багато сфер знань буде надто ризикованим для більшості підприємств. ШІ залишиться помічником або співпілотом для людських працівників у багатьох випадках, а не повною автоматизацією їхньої роботи. Також існують інші причини, чому такий рівень автоматизації, який спостерігають розробники програмного забезпечення, малоймовірний для інших категорій роботи з знаннями. У багатьох випадках підприємства не можуть надати агентам ШІ доступ до необхідних інструментів і систем даних для автоматизації процесів. Варто зазначити, що найбільші ентузіасти автоматизації ШІ — це здебільшого розробники, які працюють самостійно або у стартапах, орієнтованих на ШІ. Ці програмісти часто не обтяжені застарілими системами і технічним боргом, і їм не потрібно багато дотримуватися управлінських і нормативних вимог. Великі організації зазвичай наразі не мають можливості з’єднати джерела даних і програмні інструменти. У інших випадках побоювання щодо безпеки та управління означають, що великі підприємства, особливо у регульованих сферах, таких як банківська справа, фінанси, право і охорона здоров’я, не готові автоматизувати без надійних гарантій, що результати будуть надійними, і що існує процес моніторингу, управління та аудиту цих результатів. Системи для цього наразі примітивні. Поки вони не стануть більш зрілими і надійними, не очікуйте повної автоматизації виробництва критичних або регульованих результатів. Критики стверджують, що Шумер не чесний щодо недоліків великих мовних моделей --------------------------------------------------- Я не один такий, хто вважає аналіз Шумера хибним. Гері Маркус, заслужений професор когнітивної науки Нью-Йоркського університету, один із провідних скептиків сучасних великих мовних моделей, сказав мені, що пост Шумера у X — це «зброєний хайп». І він звернув увагу на проблеми навіть у його аргументації щодо автоматизованої розробки програмного забезпечення. «Він не надає жодних реальних даних, щоб підтвердити цю заяву, що останні системи кодування можуть писати цілі складні додатки без помилок», — сказав Маркус. Він зазначає, що Шумер неправильно інтерпретує відомий бенчмарк від організації оцінки ШІ METR, який намагається виміряти автономні можливості кодування ШІ і свідчить, що здатності ШІ подвоюються кожні сім місяців. Маркус зауважує, що Шумер не згадує, що цей бенчмарк має два пороги точності — 50% і 80%. Але більшість бізнесів не зацікавлені у системі, яка провалюється у половині випадків або навіть у кожній п’ятій спробі. «Жодна система ШІ не може надійно виконувати кожне п’ятигодинне завдання, яке можуть зробити люди без помилок, або навіть близько того, — каже Маркус. — Але ви цього не зрозумієте, читаючи блог Шумера, який ігнорує всі галюцинації та дурні помилки, що трапляються щодня.» Він також зазначив, що Шумер не посилається на недавні дослідження Caltech і Stanford, які описують широкий спектр логічних помилок у передових моделях ШІ. І він підкреслив, що Шумер раніше був спійманий на перебільшеннях щодо можливостей однієї з моделей ШІ, яку він тренував. «Він любить продавати великі ідеї. Це не означає, що його слід сприймати серйозно», — сказав Маркус. Інші критики блогу Шумера зазначають, що його економічний аналіз є історично необґрунтованим. Кожна інша технологічна революція у довгостроковій перспективі створювала більше робочих місць, ніж знищувала. Коннор Бояк, президент Інституту Лібертарас у Юті, написав цілий контр-блог, у якому доводить цю ідею. Тож так, ШІ може бути готовий трансформувати роботу. Але повна автоматизація завдань, яку почали спостерігати деякі розробники програмного забезпечення, можлива лише для деяких завдань? Для більшості працівників з знаннями, особливо тих, хто працює у великих організаціях, це займе набагато більше часу, ніж стверджує Шумер.