بقلم: Sierra Elman
Mar 12, 2024
“اكتب قصيدة عن شروق الشمس.” هذا ما طلبته من ثلاث منصات ذكاء اصطناعي – ChatGPT-4 من OpenAI، وBard من Google، وClaude من Anthropic – بالإضافة إلى نفسي، كطالب في الصف الثامن. ثم قمت بعرض النتائج على لجنة تتكون من 38 خبيرًا في الذكاء الاصطناعي و39 خبيرًا في اللغة الإنجليزية لتقييم النتائج. فهل الذكاء الاصطناعي أذكى من طالب في الصف الثامن؟
الإجابة حسب الاستطلاع:
الذكاء الاصطناعي ليس أذكى من طالب في الصف الثامن، على الأقل ليس بعد. فاز الطالب بالمرتبة الأولى، وبفارق أكبر عندما قيم الخبراء الإنجليز النصوص. بينما احتلت Bard وChatGPT-4 وClaude المراتب الثانية والثالثة والرابعة على التوالي، سواء من حيث جودة الكتابة أو قدرتها على خداع الحكام للاعتقاد بأنها مكتوبة من قبل إنسان. والأكثر إثارة هو أن خبراء اللغة الإنجليزية كانوا أكثر قدرة على التمييز بين القصائد المكتوبة بواسطة الذكاء الاصطناعي وتلك المكتوبة من قبل البشر، حيث تمكن 11 خبيرًا من اللغة الإنجليزية مقابل 3 فقط من خبراء الذكاء الاصطناعي من تحديد مؤلف القصائد الأربعة بشكل صحيح. يشير هذا إلى حاجة ماسة لدور أكبر لخبراء اللغة الإنجليزية في تشكيل الأجيال المستقبلية لتقنيات الذكاء الاصطناعي.
انفجار شعبية نماذج اللغة الكبيرة (LLMs) ومستقبل الإبداع البشري
مع تزايد شعبية نماذج اللغة الكبيرة، تم الحديث كثيرًا عن استحواذ الذكاء الاصطناعي على أدوار الكتّاب البشريين، مما أثار مخاوف بشأن فقدان الإبداع الإنساني الأصيل. شخصيًا، كنت أعمل على مشروع كتابة إبداعية يشمل مجموعة من القصص القصيرة والقصائد، وبعضها قدمته للنشر.
مؤخرًا، تلقيت تعليقًا من مُحرِّر حول إحدى القصائد المقدمة: “الإيقاع في هذه القصيدة استثنائي للغاية، وهو أمر نادر بالنسبة لطلاب الثانوية، فما بالك بطالب في الصف الثامن؟ يُرجى توقيع بيان يؤكد أنك لم تستخدم الذكاء الاصطناعي بأي شكل في كتابة هذه القصيدة.” شعرت بمزيج غريب من الإطراء والإحباط، لكن الأهم أنني شعرت بالدهشة.
قررت إضافة جانب جديد إلى مشروعي، وهو دراسة كيفية قدرة الذكاء الاصطناعي على إنشاء كتابة إبداعية أصيلة. اخترت التركيز على الشعر، لأنه يمثل تحديًا أكبر للذكاء الاصطناعي مقارنة بأنواع الكتابة الأخرى، نظرًا لاعتماده على المشاعر الإنسانية التي يفتقر إليها الذكاء الاصطناعي بطبيعته. كما أشار كيث هوليوك في MIT Press Reader: “الشعر قد يكون بمثابة طائر الكناري في منجم الفحم – مؤشر مبكر على مدى قدرة الذكاء الاصطناعي على تحدي البشر كصُنّاع للفن.”
التجربة: كيف يكتب الذكاء الاصطناعي الشِعر؟
في فبراير 2023، ناقش والت هانتر في The Atlantic الشِعر الذي ينتجه الذكاء الاصطناعي، وخلص إلى أن قصائد الذكاء الاصطناعي مليئة بالكليشيهات والقوافي المبتذلة. أردت أن أرى كيف تطورت قدرات الذكاء الاصطناعي بعد عام تقريبًا. ركزت على ثلاثة أسئلة:
1- اختبار تورينج: هل يمكن للناس التعرف على القصائد التي كتبها الذكاء الاصطناعي؟
2- هل القصائد التي كتبها الذكاء الاصطناعي ذات جودة أدبية؟
3- هل يوجد اختلاف في الأحكام بين خبراء اللغة الإنجليزية وخبراء الذكاء الاصطناعي؟
لتحليل هذه الأسئلة، قمت بمسح آراء 38 خبيرًا في الذكاء الاصطناعي (مهندسين ومديري منتجات وقادة في OpenAI وGoogle وApple وAmazon، إلخ) و39 خبيرًا في اللغة الإنجليزية (معلمين وأساتذة وكتاب ومؤلفين) في يناير 2024. تم تقديم أربع قصائد لهم كُتبت في 27 ديسمبر 2023 بواسطة:
Claude 2.1 من Anthropic
Bard من Google
أنا، كطالب في الصف الثامن
ChatGPT-4 من OpenAI
تم تقييم كل قصيدة بناءً على مقياس من 1 إلى 10 من حيث الجودة المتوقعة، وطُلب من المشاركين تحديد ما إذا كانت القصيدة من تأليف إنسان أو ذكاء اصطناعي.
نتائج اختبار تورينج
أغلبية المشاركين (89.6%) تمكنوا من التعرف على القصيدة البشرية. وتمكن معظم المشاركين من تحديد القصائد التي كتبها الذكاء الاصطناعي. حيث عرف 18.2% من المشاركين مؤلف القصائد الأربعة بشكل صحيح. أكثر من نصف المشاركين (58.4%) حددوا مؤلف 3 من 4 قصائد. و18.2% حددوا مؤلف قصيدتين فقط. 3.9% حددوا مؤلف قصيدة واحدة فقط. وشخص واحد فقط (1.3%) أخطأ في تحديد مؤلف جميع القصائد.
إجمالًا، 33.8% من المشاركين اعتقدوا بالخطأ أن القصائد التي كتبها الذكاء الاصطناعي كتبها إنسان. عند تقسيم النتائج حسب منصات الذكاء الاصطناعي، كانت Bard الأكثر قدرة على خداع الناس، حيث اعتقد 46.8% من المشاركين أن قصيدتها كُتبت بواسطة إنسان، مقارنة بـ29.9% لChatGPT، و24.7% لClaude، كما هو موضح بالأشرطة الخضراء في الشكل 1:
الشكل (1)
هل القصائد التي ينتجها الذكاء الاصطناعي حقًا ذات جودة عالية؟
أداء القصائد التي أنتجها الذكاء الاصطناعي كان جيدًا إلى حد ما، لكنه لم يتفوق على القصيدة البشرية، التي حصلت على أعلى تقييم في المتوسط. مع ذلك، جاءت قصائد الذكاء الاصطناعي قريبة نسبيًا من القصيدة البشرية. تحديدًا، حصلت القصيدة البشرية على متوسط تقييم جودة بلغ 6.9 من 10، تلتها قصائد Bard بمعدل 6.2 من 10، ثم ChatGPT بمعدل 5.8 من 10، وأخيرًا Claude بمعدل 5.4 من 10، كما هو موضح في الأشرطة الزرقاء في الشكل 1. أما متوسط تقييم جودة قصائد الذكاء الاصطناعي مجتمعة، فكان 5.8 من 10.
انحياز واضح ضد الذكاء الاصطناعي:
أظهرت النتائج وجود انحياز لدى المشاركين ضد القصائد التي يعتقدون أنها مكتوبة بواسطة الذكاء الاصطناعي، حيث كانوا يميلون إلى إعطاء تقييم أعلى إذا اعتقدوا أن القصيدة من تأليف إنسان. على وجه التحديد، وكما يظهر في الشكل 2:
- المشاركون الذين اعتقدوا أن قصيدة Claude كتبها إنسان أعطوها تقييمًا أعلى بمقدار 1.79 نقطة.
- المشاركون الذين اعتقدوا أن قصيدة Bard كتبها إنسان أعطوها تقييمًا أعلى بمقدار 1.9 نقطة.
- المشاركون الذين اعتقدوا أن قصيدة ChatGPT كتبها إنسان أعطوها تقييمًا أعلى بمقدار 1.95 نقطة.
- المشاركون الذين اعتقدوا أن القصيدة البشرية كتبها إنسان أعطوها تقييمًا أعلى بمقدار 2.14 نقطة.
بعبارة أخرى، إما أن المشاركين كانوا يقررون أن القصيدة سيئة وبالتالي هي من تأليف الذكاء الاصطناعي، أو يقررون أن القصيدة من تأليف الذكاء الاصطناعي وبالتالي هي سيئة. (والجدير بالذكر أن المشاركين قيموا القصائد أولًا ثم خمنوا مؤلفها، ما يجعل الاحتمال الأول أكثر ترجيحًا). في كلا الحالتين، كان هناك تحيز واضح ضد جودة النصوص التي يُعتقد أنها مكتوبة بواسطة الذكاء الاصطناعي.
الشكل (2)
كما يوضح الشكل 3، هناك ارتباط قوي جدًا (R² = 0.943) بين تقييم الجودة ونسبة الأشخاص الذين اعتقدوا أن القصيدة من تأليف إنسان. (تشير R² = 1.0 إلى ارتباط مثالي، بينما R² = 0.0 تشير إلى غياب أي ارتباط).
الشكل (3)
هل اختلف تقييم خبراء اللغة الإنجليزية عن خبراء الذكاء الاصطناعي؟
خبراء اللغة الإنجليزية كانوا أقل عرضة للخداع
كان خبراء اللغة الإنجليزية أكثر قدرة على التعرف على مؤلفي القصائد مقارنة بخبراء الذكاء الاصطناعي. في المتوسط، تمكن خبراء اللغة الإنجليزية من تحديد المؤلف بشكل صحيح في 3.13 من أصل 4 مرات، بينما تمكن خبراء الذكاء الاصطناعي من ذلك في 2.61 من 4 مرات فقط. هذا لم يكن مفاجئًا نظرًا لأن خبراء اللغة الإنجليزية لديهم خلفية أقوى في مجال الشعر.
الأكثر لفتًا للنظر هو أن خبراء اللغة الإنجليزية كانوا أكثر احتمالًا لتحقيق درجة مثالية. من بين جميع المشاركين، 14 فقط من أصل 77 (18%) تمكنوا من تحديد مؤلف جميع القصائد بشكل صحيح. ومع ذلك، من بين هؤلاء، كان 11 من أصل 39 (28%) من خبراء اللغة الإنجليزية، مقارنة بـ 3 فقط من أصل 38 (8%) من خبراء الذكاء الاصطناعي.
كيف تمكن الخبراء من التعرف على مؤلف القصائد؟
ركز خبراء اللغة الإنجليزية الذين حصلوا على درجات مثالية على جوانب مثل القوافي المكررة، الاستخدام الزائد للأدوات الأدبية، والعبارات المبتذلة، بالإضافة إلى الأخطاء المنطقية. على سبيل المثال:
لاري فلين، أستاذ الكتابة في جامعة ماساتشوستس، قال: “أنماط القوافي في قصائد الذكاء الاصطناعي أثارت شكوكي… الكثير من الشعراء اليوم لا يستخدمون القافية التقليدية، لذا بدت لي هذه القصائد وكأنها تحاول تقليد مفهوم القصيدة أكثر من إنتاج قصيدة حقيقية.”
كارين تيغل، مديرة مدرسة Nueva الإعدادية، أشارت إلى أن “قصائد الذكاء الاصطناعي تميل إلى الإفراط في استخدام الأدوات الأدبية، خاصة التشبيهات والاستعارات.”
جينيفر بول، مديرة مركز الكتابة في مدرسة Nueva، لاحظت عناصر “بدا أنها مبتذلة أو غير منطقية، لكنها ليست مبررة مجازيًا (على سبيل المثال، لا يمكن أن ’تشرب شرارة‘).”
أما خبراء الذكاء الاصطناعي الذين تمكنوا من تحديد النصوص بشكل صحيح، فقد ركزوا على البساطة، المشكلات في القوافي، والإهمال الواضح في الكتابة. على سبيل المثال، ديفيد أور، مدير الهندسة في Google DeepMind، قال: “قصيدة Bard كانت واضحة بالنسبة لي – كررت القافية نفسها (cloak مع cloak)، وهو أمر غير معتاد لشاعر بشري.”
خبراء اللغة الإنجليزية أكثر دقة في تقييم الجودة
أظهر خبراء اللغة الإنجليزية تميّزًا أكبر في تقييم جودة القصائد مقارنة بخبراء الذكاء الاصطناعي. عندما تم استبعاد تقييمات خبراء الذكاء الاصطناعي، ارتفعت درجات القصيدة البشرية وانخفضت درجات القصائد الناتجة عن الذكاء الاصطناعي. في المتوسط:
قيّم خبراء اللغة الإنجليزية القصيدة البشرية بـ 7.2/10، مقارنة بـ 6.1/10 لقصيدة Bard، و5.4/10 لقصيدة ChatGPT، و5.0/10 لقصيدة Claude.
كما يظهر في الشكل 4، كان تقييم خبراء اللغة الإنجليزية أعلى بمقدار 0.6 نقطة للقصيدة البشرية، وأقل بمقدار 0.3، 0.8، و0.9 نقطة لقصائد Bard وChatGPT وClaude على التوالي مقارنة بتقييمات خبراء الذكاء الاصطناعي.