كتب المؤثر في مجال الذكاء الاصطناعي مات شومر مدونة فيروسية على منصة إكس حول إمكانيات الذكاء الاصطناعي في الاضطراب، وفي النهاية أتمتة، تقريبًا جميع الأعمال المعرفية التي حققت أكثر من 55 مليون مشاهدة خلال الـ24 ساعة الماضية. لقد أصابت مقالة شومر التي تتكون من 5000 كلمة عصبًا حساسًا. كُتبت بنبرة متحمسة، وتُبنى كتحذير للأصدقاء والعائلة حول كيف أن وظائفهم على وشك أن تتغير بشكل جذري. (فورين نشرت أيضًا نسخة معدلة من منشور شومر كمقالة تعليق.) يكتب: “في الخامس من فبراير، أطلقت مختبرات الذكاء الاصطناعي الكبرى نماذج جديدة في نفس اليوم: GPT-5.3 Codex من OpenAI، وOpus 4.6 من Anthropic.” ويضيف: “وحدث شيء ما. ليس كالمفتاح الذي يُضيء الضوء… بل كحظة تدرك فيها أن الماء بدأ يرتفع حولك وأصبح عند صدرك.” يقول شومر إن المبرمجين هم الكناري في منجم الفحم لكل مهنة أخرى. “التجربة التي مر بها عمال التقنية خلال العام الماضي، من مشاهدة الذكاء الاصطناعي يتحول من ‘أداة مساعدة’ إلى ‘يؤدي وظيفتي بشكل أفضل مني’، هي التجربة التي سيخوضها الجميع قريبًا،” ويكتب: “القانون، التمويل، الطب، المحاسبة، الاستشارات، الكتابة، التصميم، التحليل، خدمة العملاء. ليس بعد عشر سنوات. يقول مطورو هذه الأنظمة إن الأمر يتطلب من سنة إلى خمس سنوات. ويقول البعض أقل. وبالنظر إلى ما رأيته خلال الأشهر القليلة الماضية، أعتقد أن ‘الأقل’ هو الأكثر احتمالًا.” لكن على الرغم من طبيعته الفيروسية، فإن تأكيد شومر أن ما حدث مع الترميز هو مقدمة لما سيحدث في مجالات أخرى—وبشكل حاسم، أن هذا سيحدث خلال بضع سنوات فقط—يبدو لي غير صحيح. وأكتب هذا كشخص كتب كتابًا (إتقان الذكاء الاصطناعي: دليل البقاء لمستقبلنا الخارقة) تنبأ فيه بأن الذكاء الاصطناعي سيغير بشكل كبير العمل المعرفي بحلول عام 2029، وهو شيء لا أزال أؤمن به. لا أعتقد أن الأتمتة الكاملة للعمليات التي بدأنا نراها مع الترميز ستصل إلى مجالات أخرى بسرعة كما يزعم شومر. قد يكون على المسار الصحيح من ناحية الاتجاه، لكن نبرة الرعب في رسالته تبدو لي كدعاية للخوف، ومبنية إلى حد كبير على افتراضات خاطئة. فيديو موصى به * * * ليس كل العمل المعرفي يشبه تطوير البرمجيات ------------------------------------------------------- يقول شومر إن السبب في أن الترميز كان المجال الذي كان لديه أكبر تأثير لقدرات الوكيل الذاتي هو أن شركات الذكاء الاصطناعي كرست له الكثير من الاهتمام. ويضيف أن ذلك لأن شركات النماذج المتقدمة ترى أن تطوير البرمجيات الذاتية هو مفتاح لأعمالها، مما يمكّن نماذج الذكاء الاصطناعي من المساعدة في بناء الجيل التالي من نماذج الذكاء الاصطناعي. وفي هذا، يبدو أن رهانات شركات الذكاء الاصطناعي تؤتي ثمارها: وتيرة إنتاج نماذج أفضل قد زادت بشكل ملحوظ خلال العام الماضي. وقالت كل من OpenAI وAnthropic إن الكود وراء نماذجهما الأخيرة تم كتابته بشكل كبير بواسطة الذكاء الاصطناعي نفسه. يقول شومر إن الأداء الذي يُرى في الترميز هو مؤشر قيادي، وأن نفس المكاسب في الأداء تظهر في مجالات أخرى، وإن كان أحيانًا بعد حوالي سنة من التحسن في الترميز. (لم يقدم شومر تفسيرًا مقنعًا لسبب وجود هذا التأخير، على الرغم من أنه يوحي بأنه ببساطة لأن شركات نماذج الذكاء الاصطناعي تركز على تحسين الترميز أولاً ثم تتجه تدريجيًا لتحسين النماذج في مجالات أخرى.) لكن ما لا يقوله شومر هو أن سببًا آخر لتسريع التقدم في أتمتة تطوير البرمجيات هو أن الترميز لديه بعض المقاييس الكمية للجودة التي ببساطة لا توجد في مجالات أخرى. في البرمجة، إذا كانت الشفرة سيئة جدًا، فهي ببساطة لن تترجم على الإطلاق. قد تفشل أيضًا في اجتياز اختبارات الوحدة التي يمكن لوكيل الترميز الذكي أداؤها. (لم يذكر شومر أن وكلاء الترميز اليوم أحيانًا يكذبون بشأن إجراء اختبارات الوحدة، وهو أحد الأسباب التي تجعل تطوير البرمجيات الآلي غير مضمون تمامًا.) يقول العديد من المطورين إن الشفرة التي يكتبها الذكاء الاصطناعي غالبًا ما تكون جيدة بما يكفي لاجتياز هذه الاختبارات الأساسية، لكنها لا تزال غير جيدة جدًا: غير فعالة، غير أنيقة، والأهم من ذلك، غير آمنة، مما يفتح منظمة تستخدمها لمخاطر أمنية. لكن في الترميز، لا تزال هناك طرق لبناء وكلاء ذكاء اصطناعي مستقلين لمعالجة بعض هذه المشاكل. يمكن للنموذج أن يطلق وكلاء فرعيين يتحققون من الشفرة التي كتبها للكشف عن ثغرات أمنية أو ينتقدون كفاءتها. وبما أن الشفرة البرمجية يمكن اختبارها في بيئات افتراضية، فهناك العديد من الطرق لأتمتة عملية التعلم المعزز—حيث يتعلم الوكيل من التجربة لتحقيق مكافأة معينة، مثل النقاط في لعبة—والتي تستخدمها شركات الذكاء الاصطناعي لتشكيل سلوك نماذج الذكاء الاصطناعي بعد تدريبها الأولي. هذا يعني أن تحسين وكلاء الترميز يمكن أن يتم بطريقة آلية وعلى نطاق واسع. تقييم الجودة في العديد من المجالات المعرفية الأخرى أصعب بكثير. لا توجد مترجمات للحقوق، ولا اختبارات وحدة لخطط العلاج الطبي، ولا مقياس نهائي لمدى جودة حملة تسويقية قبل اختبارها على المستهلكين. من الصعب جدًا في مجالات أخرى جمع كميات كافية من البيانات من خبراء محترفين حول ما هو “جيد”. تدرك شركات الذكاء الاصطناعي أنها تواجه مشكلة في جمع هذا النوع من البيانات. ولهذا السبب تدفع الآن ملايين الدولارات لشركات مثل Mercor، التي بدورها تنفق مبالغ كبيرة لتوظيف محاسبين، ومحترفين ماليين، ومحامين، وأطباء للمساعدة في تقديم ملاحظات على مخرجات الذكاء الاصطناعي حتى تتمكن من تدريب نماذجها بشكل أفضل. صحيح أن هناك معايير قياسية تظهر أن نماذج الذكاء الاصطناعي الأخيرة تحقق تقدمًا سريعًا في المهام المهنية خارج الترميز. أحد أفضل هذه المعايير هو معيار GDPVal من OpenAI. يُظهر أن النماذج المتقدمة يمكن أن تصل إلى مستوى الخبراء البشريين في مجموعة من المهام المهنية، من الأعمال القانونية المعقدة إلى التصنيع والرعاية الصحية. حتى الآن، لم تُعلن نتائج النماذج التي أطلقتها OpenAI وAnthropic الأسبوع الماضي. لكن بالنسبة لسابقتها، Claude Opus 4.5 وGPT-5.2، تحقق النماذج تساوي الأداء مع الخبراء البشريين عبر مجموعة متنوعة من المهام، وتتفوق على الخبراء في العديد من المجالات. فهل هذا يعني أن شومر على حق؟ حسنًا، ليس بسرعة. يتضح أن في العديد من المهن، ما “يبدو جيدًا” هو أمر ذاتي للغاية. وافق الخبراء البشريون على تقييماتهم لمخرجات الذكاء الاصطناعي بنسبة حوالي 71%. أما نظام التقييم الآلي المستخدم بواسطة OpenAI لـ GDPVal فهناك تباين أكبر، حيث يوافق على التقييمات فقط بنسبة 66%. إذًا، الأرقام العنوانية حول مدى جودة الذكاء الاصطناعي في المهام المهنية قد تكون بها هامش خطأ كبير. المنشآت تحتاج إلى الاعتمادية، والحوكمة، وقابلية التدقيق ---------------------------------------------------------- هذا التباين هو أحد الأمور التي تعيق الشركات عن نشر سير عمل آلي بالكامل. ليس فقط لأن مخرجات نموذج الذكاء الاصطناعي قد تكون خاطئة، بل لأنه، كما يقترح معيار GDPVal، فإن ما يعادل اختبار وحدة آلي في العديد من السياقات المهنية قد يُنتج نتيجة خاطئة ثلث الوقت. لا يمكن لمعظم الشركات تحمل احتمال أن يتم تسليم عمل ذو جودة رديئة في ثلث الحالات. المخاطر ببساطة كبيرة جدًا. أحيانًا، قد يكون الخطر مجرد سمعة سيئة. وفي حالات أخرى، قد يعني خسارة فورية للإيرادات. لكن في العديد من المهام المهنية، قد تكون عواقب القرار الخاطئ أكثر خطورة، مثل العقوبات المهنية، والدعاوى القضائية، وفقدان التراخيص، وفقدان التغطية التأمينية، وحتى خطر الأذى الجسدي والوفاة—أحيانًا لأعداد كبيرة من الناس. الأمر الأكثر تعقيدًا هو أن محاولة إبقاء الإنسان في الحلقة لمراجعة المخرجات الآلية أمر إشكالي. تتطور نماذج الذكاء الاصطناعي اليوم بشكل حقيقي. تقل حالات الهلوسة بشكل أقل. لكن ذلك يجعل المشكلة أسوأ. مع تراجع الأخطاء الناتجة عن الذكاء الاصطناعي، يصبح المراجعون البشر أكثر استرخاءً. وتصبح أخطاء الذكاء الاصطناعي أصعب في اكتشافها. الذكاء الاصطناعي رائع في أن يكون واثقًا من خطئه وفي تقديم نتائج بشكل لا تشوبه شائبة من حيث الشكل، لكن تفتقر إلى المحتوى. هذا يتجاوز بعض المعايير التي يستخدمها البشر لضبط مستوى يقظتهم. غالبًا ما تفشل نماذج الذكاء الاصطناعي بطرق غريبة عن طرق فشل البشر في نفس المهام، مما يجعل الحذر من أخطاء الذكاء الاصطناعي أكثر تحديًا. لذلك، وحتى يتم تطوير ما يعادل اختبارات الوحدة الآلية للحقول المهنية، فإن نشر سير عمل آلي كامل في العديد من سياقات العمل المعرفي سيكون محفوفًا بالمخاطر بالنسبة لمعظم الشركات. سيظل الذكاء الاصطناعي مساعدًا أو مساعدًا للعمال المعرفيين البشريين في كثير من الحالات، بدلاً من أن يحقق أتمتة كاملة لعملهم. هناك أسباب أخرى تجعل نوعية الأتمتة التي لاحظها مطورو البرمجيات غير مرجحة في فئات أخرى من العمل المعرفي. في كثير من الحالات، لا تستطيع الشركات أن تمنح وكلاء الذكاء الاصطناعي الوصول إلى الأدوات وأنظمة البيانات التي يحتاجونها لأداء سير عمل آلي. من الجدير بالذكر أن أكثر الداعمين حماسًا لأتمتة الذكاء الاصطناعي حتى الآن هم المطورون الذين يعملون بشكل مستقل أو لشركات ناشئة تعتمد على الذكاء الاصطناعي. هؤلاء المبرمجون غالبًا غير مقيدين بأنظمة قديمة وديون تقنية، وغالبًا لا يواجهون الكثير من أنظمة الحوكمة والامتثال. المنظمات الكبرى غالبًا تفتقر حاليًا إلى طرق لربط مصادر البيانات والأدوات البرمجية معًا. وفي حالات أخرى، تعني مخاوف الأمان والحوكمة أن المؤسسات الكبيرة، خاصة في القطاعات المنظمة مثل البنوك، والتمويل، والقانون، والرعاية الصحية، غير مستعدة لأتمتة العمليات دون ضمانات صارمة بأن النتائج ستكون موثوقة وأن هناك عملية لمراقبة، وحوكمة، وتدقيق النتائج. الأنظمة الحالية لهذه العمليات بدائية. وحتى تصبح أكثر نضجًا وقوة، لا تتوقع أن تقوم المؤسسات بأتمتة كاملة لإنتاج مخرجات حاسمة للأعمال أو منظمة بشكل كامل. المنتقدون يقولون إن شومر غير صادق بشأن إخفاقات نماذج اللغة الكبيرة ------------------------------------------------------------ لست الوحيد الذي وجد أن تحليل شومر خاطئ. غاري ماركوس، أستاذ العلوم الإدراكية السابق في جامعة نيويورك والذي أصبح أحد أبرز المشككين في نماذج اللغة الكبيرة اليوم، أخبرني أن منشور شومر على إكس هو “ضجيج مسلح”. وأشار إلى مشاكل حتى في حججه حول تطوير البرمجيات الآلي. “لا يقدم أي بيانات فعلية لدعم ادعائه أن أنظمة الترميز الأحدث يمكنها كتابة تطبيقات معقدة كاملة دون أخطاء،” قال ماركوس. ويشير إلى أن شومر يسيء تفسير معيارًا معروفًا من منظمة تقييم الذكاء الاصطناعي METR الذي يحاول قياس قدرات الترميز الذاتية لنماذج الذكاء الاصطناعي، والذي يقترح أن قدرات الذكاء الاصطناعي تتضاعف كل سبعة أشهر. يذكر ماركوس أن شومر لم يذكر أن المعيار لديه حدين للدقة، 50% و80%. لكن معظم الشركات ليست مهتمة بنظام يفشل نصف الوقت، أو حتى واحد من كل خمس محاولات. “لا يمكن لأي نظام ذكاء اصطناعي أن يؤدي بشكل موثوق كل مهمة طويلة مدتها خمس ساعات يمكن للبشر أداؤها بدون خطأ، أو حتى تقريبًا، لكنك لن تعرف ذلك عند قراءة مدونة شومر، التي تتجاهل بشكل كبير كل الهلوسة والأخطاء الغبية التي تكون شائعة جدًا في التجربة اليومية،” قال ماركوس. كما أشار إلى أن شومر لم يذكر الأبحاث الحديثة من Caltech وStanford التي وثقت مجموعة واسعة من أخطاء التفكير في نماذج الذكاء الاصطناعي المتقدمة. وأوضح أن شومر سبق وأن تم القبض عليه وهو يبالغ في ادعاءات قدرات نموذج ذكاء اصطناعي دربه. “هو يحب أن يبيع بشكل كبير. هذا لا يعني أنه يجب أن نأخذه على محمل الجد،” قال ماركوس. ويشير منتقدون آخرون لمدونة شومر إلى أن تحليله الاقتصادي غير تاريخي. فكل ثورة تكنولوجية أخرى على المدى الطويل خلقت وظائف أكثر مما ألغت. كتب كونور بويك، رئيس معهد ليبرتا، وهو مركز أبحاث سياسات في يوتا، منشورًا مضادًا كاملًا لهذا الطرح. لذا، نعم، قد يكون الذكاء الاصطناعي على وشك تحويل العمل. لكن نوع الأتمتة الكاملة للمهام التي بدأ بعض مطوري البرمجيات بملاحظتها؟ بالنسبة لمعظم العاملين في المعرفة، خاصة أولئك المندمجين في منظمات كبيرة، سيكون ذلك أبطأ بكثير مما يزعم شومر.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
مدونة مات شومر التي انتشرت على نطاق واسع حول التأثير الوشيك للذكاء الاصطناعي على العاملين في مجال المعرفة تعتمد على افتراضات خاطئة
كتب المؤثر في مجال الذكاء الاصطناعي مات شومر مدونة فيروسية على منصة إكس حول إمكانيات الذكاء الاصطناعي في الاضطراب، وفي النهاية أتمتة، تقريبًا جميع الأعمال المعرفية التي حققت أكثر من 55 مليون مشاهدة خلال الـ24 ساعة الماضية. لقد أصابت مقالة شومر التي تتكون من 5000 كلمة عصبًا حساسًا. كُتبت بنبرة متحمسة، وتُبنى كتحذير للأصدقاء والعائلة حول كيف أن وظائفهم على وشك أن تتغير بشكل جذري. (فورين نشرت أيضًا نسخة معدلة من منشور شومر كمقالة تعليق.) يكتب: “في الخامس من فبراير، أطلقت مختبرات الذكاء الاصطناعي الكبرى نماذج جديدة في نفس اليوم: GPT-5.3 Codex من OpenAI، وOpus 4.6 من Anthropic.” ويضيف: “وحدث شيء ما. ليس كالمفتاح الذي يُضيء الضوء… بل كحظة تدرك فيها أن الماء بدأ يرتفع حولك وأصبح عند صدرك.” يقول شومر إن المبرمجين هم الكناري في منجم الفحم لكل مهنة أخرى. “التجربة التي مر بها عمال التقنية خلال العام الماضي، من مشاهدة الذكاء الاصطناعي يتحول من ‘أداة مساعدة’ إلى ‘يؤدي وظيفتي بشكل أفضل مني’، هي التجربة التي سيخوضها الجميع قريبًا،” ويكتب: “القانون، التمويل، الطب، المحاسبة، الاستشارات، الكتابة، التصميم، التحليل، خدمة العملاء. ليس بعد عشر سنوات. يقول مطورو هذه الأنظمة إن الأمر يتطلب من سنة إلى خمس سنوات. ويقول البعض أقل. وبالنظر إلى ما رأيته خلال الأشهر القليلة الماضية، أعتقد أن ‘الأقل’ هو الأكثر احتمالًا.” لكن على الرغم من طبيعته الفيروسية، فإن تأكيد شومر أن ما حدث مع الترميز هو مقدمة لما سيحدث في مجالات أخرى—وبشكل حاسم، أن هذا سيحدث خلال بضع سنوات فقط—يبدو لي غير صحيح. وأكتب هذا كشخص كتب كتابًا (إتقان الذكاء الاصطناعي: دليل البقاء لمستقبلنا الخارقة) تنبأ فيه بأن الذكاء الاصطناعي سيغير بشكل كبير العمل المعرفي بحلول عام 2029، وهو شيء لا أزال أؤمن به. لا أعتقد أن الأتمتة الكاملة للعمليات التي بدأنا نراها مع الترميز ستصل إلى مجالات أخرى بسرعة كما يزعم شومر. قد يكون على المسار الصحيح من ناحية الاتجاه، لكن نبرة الرعب في رسالته تبدو لي كدعاية للخوف، ومبنية إلى حد كبير على افتراضات خاطئة. فيديو موصى به * * * ليس كل العمل المعرفي يشبه تطوير البرمجيات ------------------------------------------------------- يقول شومر إن السبب في أن الترميز كان المجال الذي كان لديه أكبر تأثير لقدرات الوكيل الذاتي هو أن شركات الذكاء الاصطناعي كرست له الكثير من الاهتمام. ويضيف أن ذلك لأن شركات النماذج المتقدمة ترى أن تطوير البرمجيات الذاتية هو مفتاح لأعمالها، مما يمكّن نماذج الذكاء الاصطناعي من المساعدة في بناء الجيل التالي من نماذج الذكاء الاصطناعي. وفي هذا، يبدو أن رهانات شركات الذكاء الاصطناعي تؤتي ثمارها: وتيرة إنتاج نماذج أفضل قد زادت بشكل ملحوظ خلال العام الماضي. وقالت كل من OpenAI وAnthropic إن الكود وراء نماذجهما الأخيرة تم كتابته بشكل كبير بواسطة الذكاء الاصطناعي نفسه. يقول شومر إن الأداء الذي يُرى في الترميز هو مؤشر قيادي، وأن نفس المكاسب في الأداء تظهر في مجالات أخرى، وإن كان أحيانًا بعد حوالي سنة من التحسن في الترميز. (لم يقدم شومر تفسيرًا مقنعًا لسبب وجود هذا التأخير، على الرغم من أنه يوحي بأنه ببساطة لأن شركات نماذج الذكاء الاصطناعي تركز على تحسين الترميز أولاً ثم تتجه تدريجيًا لتحسين النماذج في مجالات أخرى.) لكن ما لا يقوله شومر هو أن سببًا آخر لتسريع التقدم في أتمتة تطوير البرمجيات هو أن الترميز لديه بعض المقاييس الكمية للجودة التي ببساطة لا توجد في مجالات أخرى. في البرمجة، إذا كانت الشفرة سيئة جدًا، فهي ببساطة لن تترجم على الإطلاق. قد تفشل أيضًا في اجتياز اختبارات الوحدة التي يمكن لوكيل الترميز الذكي أداؤها. (لم يذكر شومر أن وكلاء الترميز اليوم أحيانًا يكذبون بشأن إجراء اختبارات الوحدة، وهو أحد الأسباب التي تجعل تطوير البرمجيات الآلي غير مضمون تمامًا.) يقول العديد من المطورين إن الشفرة التي يكتبها الذكاء الاصطناعي غالبًا ما تكون جيدة بما يكفي لاجتياز هذه الاختبارات الأساسية، لكنها لا تزال غير جيدة جدًا: غير فعالة، غير أنيقة، والأهم من ذلك، غير آمنة، مما يفتح منظمة تستخدمها لمخاطر أمنية. لكن في الترميز، لا تزال هناك طرق لبناء وكلاء ذكاء اصطناعي مستقلين لمعالجة بعض هذه المشاكل. يمكن للنموذج أن يطلق وكلاء فرعيين يتحققون من الشفرة التي كتبها للكشف عن ثغرات أمنية أو ينتقدون كفاءتها. وبما أن الشفرة البرمجية يمكن اختبارها في بيئات افتراضية، فهناك العديد من الطرق لأتمتة عملية التعلم المعزز—حيث يتعلم الوكيل من التجربة لتحقيق مكافأة معينة، مثل النقاط في لعبة—والتي تستخدمها شركات الذكاء الاصطناعي لتشكيل سلوك نماذج الذكاء الاصطناعي بعد تدريبها الأولي. هذا يعني أن تحسين وكلاء الترميز يمكن أن يتم بطريقة آلية وعلى نطاق واسع. تقييم الجودة في العديد من المجالات المعرفية الأخرى أصعب بكثير. لا توجد مترجمات للحقوق، ولا اختبارات وحدة لخطط العلاج الطبي، ولا مقياس نهائي لمدى جودة حملة تسويقية قبل اختبارها على المستهلكين. من الصعب جدًا في مجالات أخرى جمع كميات كافية من البيانات من خبراء محترفين حول ما هو “جيد”. تدرك شركات الذكاء الاصطناعي أنها تواجه مشكلة في جمع هذا النوع من البيانات. ولهذا السبب تدفع الآن ملايين الدولارات لشركات مثل Mercor، التي بدورها تنفق مبالغ كبيرة لتوظيف محاسبين، ومحترفين ماليين، ومحامين، وأطباء للمساعدة في تقديم ملاحظات على مخرجات الذكاء الاصطناعي حتى تتمكن من تدريب نماذجها بشكل أفضل. صحيح أن هناك معايير قياسية تظهر أن نماذج الذكاء الاصطناعي الأخيرة تحقق تقدمًا سريعًا في المهام المهنية خارج الترميز. أحد أفضل هذه المعايير هو معيار GDPVal من OpenAI. يُظهر أن النماذج المتقدمة يمكن أن تصل إلى مستوى الخبراء البشريين في مجموعة من المهام المهنية، من الأعمال القانونية المعقدة إلى التصنيع والرعاية الصحية. حتى الآن، لم تُعلن نتائج النماذج التي أطلقتها OpenAI وAnthropic الأسبوع الماضي. لكن بالنسبة لسابقتها، Claude Opus 4.5 وGPT-5.2، تحقق النماذج تساوي الأداء مع الخبراء البشريين عبر مجموعة متنوعة من المهام، وتتفوق على الخبراء في العديد من المجالات. فهل هذا يعني أن شومر على حق؟ حسنًا، ليس بسرعة. يتضح أن في العديد من المهن، ما “يبدو جيدًا” هو أمر ذاتي للغاية. وافق الخبراء البشريون على تقييماتهم لمخرجات الذكاء الاصطناعي بنسبة حوالي 71%. أما نظام التقييم الآلي المستخدم بواسطة OpenAI لـ GDPVal فهناك تباين أكبر، حيث يوافق على التقييمات فقط بنسبة 66%. إذًا، الأرقام العنوانية حول مدى جودة الذكاء الاصطناعي في المهام المهنية قد تكون بها هامش خطأ كبير. المنشآت تحتاج إلى الاعتمادية، والحوكمة، وقابلية التدقيق ---------------------------------------------------------- هذا التباين هو أحد الأمور التي تعيق الشركات عن نشر سير عمل آلي بالكامل. ليس فقط لأن مخرجات نموذج الذكاء الاصطناعي قد تكون خاطئة، بل لأنه، كما يقترح معيار GDPVal، فإن ما يعادل اختبار وحدة آلي في العديد من السياقات المهنية قد يُنتج نتيجة خاطئة ثلث الوقت. لا يمكن لمعظم الشركات تحمل احتمال أن يتم تسليم عمل ذو جودة رديئة في ثلث الحالات. المخاطر ببساطة كبيرة جدًا. أحيانًا، قد يكون الخطر مجرد سمعة سيئة. وفي حالات أخرى، قد يعني خسارة فورية للإيرادات. لكن في العديد من المهام المهنية، قد تكون عواقب القرار الخاطئ أكثر خطورة، مثل العقوبات المهنية، والدعاوى القضائية، وفقدان التراخيص، وفقدان التغطية التأمينية، وحتى خطر الأذى الجسدي والوفاة—أحيانًا لأعداد كبيرة من الناس. الأمر الأكثر تعقيدًا هو أن محاولة إبقاء الإنسان في الحلقة لمراجعة المخرجات الآلية أمر إشكالي. تتطور نماذج الذكاء الاصطناعي اليوم بشكل حقيقي. تقل حالات الهلوسة بشكل أقل. لكن ذلك يجعل المشكلة أسوأ. مع تراجع الأخطاء الناتجة عن الذكاء الاصطناعي، يصبح المراجعون البشر أكثر استرخاءً. وتصبح أخطاء الذكاء الاصطناعي أصعب في اكتشافها. الذكاء الاصطناعي رائع في أن يكون واثقًا من خطئه وفي تقديم نتائج بشكل لا تشوبه شائبة من حيث الشكل، لكن تفتقر إلى المحتوى. هذا يتجاوز بعض المعايير التي يستخدمها البشر لضبط مستوى يقظتهم. غالبًا ما تفشل نماذج الذكاء الاصطناعي بطرق غريبة عن طرق فشل البشر في نفس المهام، مما يجعل الحذر من أخطاء الذكاء الاصطناعي أكثر تحديًا. لذلك، وحتى يتم تطوير ما يعادل اختبارات الوحدة الآلية للحقول المهنية، فإن نشر سير عمل آلي كامل في العديد من سياقات العمل المعرفي سيكون محفوفًا بالمخاطر بالنسبة لمعظم الشركات. سيظل الذكاء الاصطناعي مساعدًا أو مساعدًا للعمال المعرفيين البشريين في كثير من الحالات، بدلاً من أن يحقق أتمتة كاملة لعملهم. هناك أسباب أخرى تجعل نوعية الأتمتة التي لاحظها مطورو البرمجيات غير مرجحة في فئات أخرى من العمل المعرفي. في كثير من الحالات، لا تستطيع الشركات أن تمنح وكلاء الذكاء الاصطناعي الوصول إلى الأدوات وأنظمة البيانات التي يحتاجونها لأداء سير عمل آلي. من الجدير بالذكر أن أكثر الداعمين حماسًا لأتمتة الذكاء الاصطناعي حتى الآن هم المطورون الذين يعملون بشكل مستقل أو لشركات ناشئة تعتمد على الذكاء الاصطناعي. هؤلاء المبرمجون غالبًا غير مقيدين بأنظمة قديمة وديون تقنية، وغالبًا لا يواجهون الكثير من أنظمة الحوكمة والامتثال. المنظمات الكبرى غالبًا تفتقر حاليًا إلى طرق لربط مصادر البيانات والأدوات البرمجية معًا. وفي حالات أخرى، تعني مخاوف الأمان والحوكمة أن المؤسسات الكبيرة، خاصة في القطاعات المنظمة مثل البنوك، والتمويل، والقانون، والرعاية الصحية، غير مستعدة لأتمتة العمليات دون ضمانات صارمة بأن النتائج ستكون موثوقة وأن هناك عملية لمراقبة، وحوكمة، وتدقيق النتائج. الأنظمة الحالية لهذه العمليات بدائية. وحتى تصبح أكثر نضجًا وقوة، لا تتوقع أن تقوم المؤسسات بأتمتة كاملة لإنتاج مخرجات حاسمة للأعمال أو منظمة بشكل كامل. المنتقدون يقولون إن شومر غير صادق بشأن إخفاقات نماذج اللغة الكبيرة ------------------------------------------------------------ لست الوحيد الذي وجد أن تحليل شومر خاطئ. غاري ماركوس، أستاذ العلوم الإدراكية السابق في جامعة نيويورك والذي أصبح أحد أبرز المشككين في نماذج اللغة الكبيرة اليوم، أخبرني أن منشور شومر على إكس هو “ضجيج مسلح”. وأشار إلى مشاكل حتى في حججه حول تطوير البرمجيات الآلي. “لا يقدم أي بيانات فعلية لدعم ادعائه أن أنظمة الترميز الأحدث يمكنها كتابة تطبيقات معقدة كاملة دون أخطاء،” قال ماركوس. ويشير إلى أن شومر يسيء تفسير معيارًا معروفًا من منظمة تقييم الذكاء الاصطناعي METR الذي يحاول قياس قدرات الترميز الذاتية لنماذج الذكاء الاصطناعي، والذي يقترح أن قدرات الذكاء الاصطناعي تتضاعف كل سبعة أشهر. يذكر ماركوس أن شومر لم يذكر أن المعيار لديه حدين للدقة، 50% و80%. لكن معظم الشركات ليست مهتمة بنظام يفشل نصف الوقت، أو حتى واحد من كل خمس محاولات. “لا يمكن لأي نظام ذكاء اصطناعي أن يؤدي بشكل موثوق كل مهمة طويلة مدتها خمس ساعات يمكن للبشر أداؤها بدون خطأ، أو حتى تقريبًا، لكنك لن تعرف ذلك عند قراءة مدونة شومر، التي تتجاهل بشكل كبير كل الهلوسة والأخطاء الغبية التي تكون شائعة جدًا في التجربة اليومية،” قال ماركوس. كما أشار إلى أن شومر لم يذكر الأبحاث الحديثة من Caltech وStanford التي وثقت مجموعة واسعة من أخطاء التفكير في نماذج الذكاء الاصطناعي المتقدمة. وأوضح أن شومر سبق وأن تم القبض عليه وهو يبالغ في ادعاءات قدرات نموذج ذكاء اصطناعي دربه. “هو يحب أن يبيع بشكل كبير. هذا لا يعني أنه يجب أن نأخذه على محمل الجد،” قال ماركوس. ويشير منتقدون آخرون لمدونة شومر إلى أن تحليله الاقتصادي غير تاريخي. فكل ثورة تكنولوجية أخرى على المدى الطويل خلقت وظائف أكثر مما ألغت. كتب كونور بويك، رئيس معهد ليبرتا، وهو مركز أبحاث سياسات في يوتا، منشورًا مضادًا كاملًا لهذا الطرح. لذا، نعم، قد يكون الذكاء الاصطناعي على وشك تحويل العمل. لكن نوع الأتمتة الكاملة للمهام التي بدأ بعض مطوري البرمجيات بملاحظتها؟ بالنسبة لمعظم العاملين في المعرفة، خاصة أولئك المندمجين في منظمات كبيرة، سيكون ذلك أبطأ بكثير مما يزعم شومر.