Skip to content Skip to footer

OpenScholar: الذكاء الاصطناعي مفتوح المصدر الذي يتفوق على GPT-4o في البحث العلمي

بقلم: مايكل نونيز/ 20 نوفمبر 2024

يغرق العلماء في البيانات. ومع نشر ملايين الأوراق البحثية كل عام، يكافح حتى الخبراء الأكثر تفانيًا للبقاء على اطلاع بأحدث النتائج في مجالاتهم.

يعد نظام الذكاء الاصطناعي الجديد، المسمى OpenScholar ، بإعادة صياغة القواعد الخاصة بكيفية وصول الباحثين إلى الأدبيات العلمية وتقييمها وتلخيصها. تم بناء OpenScholar بواسطة معهد ألين للذكاء الاصطناعي (Ai2) وجامعة واشنطن ، ويجمع بين أنظمة الاسترجاع المتطورة ونموذج اللغة الدقيق لتقديم إجابات شاملة مدعومة بالاستشهادات لأسئلة بحثية معقدة.

كتب باحثو OpenScholar في ورقتهم البحثية : “يعتمد التقدم العلمي على قدرة الباحثين على تلخيص مجموعة متنامية من الأدبيات” . لكن هذه القدرة مقيدة بشكل متزايد بالحجم الهائل من المعلومات. يزعمون أن OpenScholar تقدم مسارًا للمضي قدمًا – مسار لا يساعد الباحثين فقط على التنقل بين طوفان الأوراق البحثية، بل يتحدى أيضًا هيمنة أنظمة الذكاء الاصطناعي الملكية مثل OpenAI’s GPT-4o .

كيف يقوم دماغ الذكاء الاصطناعي الخاص بـ OpenScholar بمعالجة 45 مليون ورقة بحثية في ثوانٍ

يعتمد OpenScholar في جوهره على نموذج لغوي معزز بالاسترجاع يستفيد من مخزن بيانات يضم أكثر من 45 مليون ورقة أكاديمية مفتوحة المصدر . فعندما يطرح باحث سؤالاً، لا يكتفي OpenScholar بإنشاء استجابة من المعرفة المدربة مسبقًا، كما تفعل النماذج مثل GPT-4o غالبًا. بل إنه يسترجع الأوراق ذات الصلة بنشاط، ويلخص نتائجها، ويولد إجابة تستند إلى تلك المصادر.

إن القدرة على البقاء “على الأرض” في الأدبيات الحقيقية تشكل عامل تمييز رئيسي. ففي الاختبارات التي تستخدم معيارًا جديدًا يسمى ScholarQABench ، والذي تم تصميمه خصيصًا لتقييم أنظمة الذكاء الاصطناعي في الأسئلة العلمية المفتوحة، تفوق OpenScholar. فقد أظهر النظام أداءً متفوقًا في دقة الحقائق والاستشهادات، حتى أنه تفوق على نماذج ملكية أكبر بكثير مثل GPT-4o.

كان أحد النتائج المزعجة بشكل خاص يتعلق بميل GPT-4o إلى توليد اقتباسات ملفقة – أو هلوسات، في لغة الذكاء الاصطناعي. فعندما كُلِّف GPT-4o بالإجابة على أسئلة بحثية طبية حيوية، استشهد بأوراق غير موجودة في أكثر من 90% من الحالات. وعلى النقيض من ذلك، ظل OpenScholar راسخًا في مصادر يمكن التحقق منها.

إن الاستناد إلى أوراق حقيقية تم استرجاعها أمر أساسي. يستخدم النظام ما وصفه الباحثون بـ ” حلقة الاستدلال بالمراجعة الذاتية ” و”يقوم بتحسين مخرجاته بشكل متكرر من خلال ردود الفعل باللغة الطبيعية، مما يحسن الجودة ويدمج المعلومات التكميلية بشكل تكيفي”.

إن العواقب المترتبة على ذلك كبيرة بالنسبة للباحثين وصناع السياسات وقادة الأعمال. ومن الممكن أن يصبح OpenScholar أداة أساسية لتسريع الاكتشاف العلمي، وتمكين الخبراء من تجميع المعرفة بشكل أسرع وبثقة أكبر.

داخل معركة داود ضد جالوت: هل يمكن للذكاء الاصطناعي مفتوح المصدر أن ينافس شركات التكنولوجيا الكبرى؟

يأتي ظهور OpenScholar في وقت يواجه فيه نظام الذكاء الاصطناعي توترًا متزايدًا بين الأنظمة المغلقة المملوكة وصعود البدائل مفتوحة المصدر مثل Meta’s Llama. تقدم نماذج مثل OpenAI’s GPT-4o وAnthropic’s Claude قدرات رائعة، لكنها باهظة الثمن وغير شفافة وغير متاحة للعديد من الباحثين. يقلب OpenScholar هذا النموذج رأسًا على عقب من خلال كونه مفتوح المصدر بالكامل.

لم يصدر فريق OpenScholar الكود الخاص بنموذج اللغة فحسب، بل أصدر أيضًا خط أنابيب الاسترجاع بالكامل ، ونموذجًا متخصصًا يحتوي على 8 مليارات معلمة تم ضبطه بدقة للمهام العلمية، ومخزن بيانات للأوراق العلمية. كتب الباحثون في منشورهم على المدونة للإعلان عن النظام: “على حد علمنا، هذا هو أول إصدار مفتوح لخط أنابيب كامل لآلة التعلم المساعدة العلمية – من البيانات إلى وصفات التدريب إلى نقاط تفتيش النموذج” .

إن هذا الانفتاح ليس مجرد موقف فلسفي؛ بل إنه أيضًا ميزة عملية. إن الحجم الأصغر لـ OpenScholar وبنيته المبسطة يجعلانه أكثر كفاءة من حيث التكلفة من الأنظمة الملكية. على سبيل المثال، يقدر الباحثون أن OpenScholar-8B أرخص بمقدار 100 مرة من PaperQA2 ، وهو نظام متزامن مبني على GPT-4o.

إن هذه الفعالية من حيث التكلفة قد تؤدي إلى إضفاء الطابع الديمقراطي على الوصول إلى أدوات الذكاء الاصطناعي القوية للمؤسسات الأصغر حجماً، والمختبرات التي تعاني من نقص التمويل، والباحثين في البلدان النامية.

ولكن لا يخلو OpenScholar من القيود. إذ يقتصر مخزن البيانات الخاص به على الأوراق البحثية المفتوحة المصدر، مما يستبعد الأبحاث الخاضعة لرسوم الدخول المدفوعة والتي تهيمن على بعض المجالات. وهذا القيد، على الرغم من أنه ضروري من الناحية القانونية، يعني أن النظام قد يفوته اكتشافات بالغة الأهمية في مجالات مثل الطب أو الهندسة. ويعترف الباحثون بهذه الفجوة ويأملون أن تتمكن الإصدارات المستقبلية من دمج المحتوى المغلق المصدر بشكل مسؤول.

الطريقة العلمية الجديدة: عندما يصبح الذكاء الاصطناعي شريكك في البحث

يثير مشروع OpenScholar أسئلة مهمة حول دور الذكاء الاصطناعي في العلوم. ورغم أن قدرة النظام على تلخيص الأدبيات مثيرة للإعجاب، إلا أنها ليست معصومة من الخطأ. ففي تقييمات الخبراء، كانت إجابات OpenScholar مفضلة على الاستجابات المكتوبة من قِبَل البشر بنسبة 70% من الوقت، ولكن 30% المتبقية سلطت الضوء على مجالات فشل فيها النموذج ــ مثل الفشل في الاستشهاد بالأوراق الأساسية أو اختيار دراسات أقل تمثيلا.

وتؤكد هذه القيود على حقيقة أوسع نطاقا: وهي أن أدوات الذكاء الاصطناعي مثل OpenScholar تهدف إلى تعزيز الخبرة البشرية، وليس استبدالها. وقد صُمم النظام لمساعدة الباحثين من خلال التعامل مع مهمة تلخيص الأدبيات التي تستغرق وقتا طويلا، مما يسمح لهم بالتركيز على التفسير وتطوير المعرفة.

قد يشير المنتقدون إلى أن اعتماد OpenScholar على الأوراق البحثية المفتوحة المصدر يحد من فائدته المباشرة في المجالات ذات المخاطر العالية مثل الأدوية، حيث يتم حبس قدر كبير من الأبحاث خلف جدران الدفع. ويزعم آخرون أن أداء النظام، على الرغم من قوته، لا يزال يعتمد بشكل كبير على جودة البيانات المسترجعة. وإذا فشلت خطوة الاسترجاع، فإن خط الأنابيب بأكمله يخاطر بإنتاج نتائج دون المستوى الأمثل.

ولكن حتى مع القيود التي يفرضها، يمثل برنامج OpenScholar لحظة فاصلة في مجال الحوسبة العلمية. ففي حين أبهرت نماذج الذكاء الاصطناعي السابقة بقدرتها على الانخراط في الحوار، فإن برنامج OpenScholar يثبت شيئا أكثر جوهرية: القدرة على معالجة الأدبيات العلمية وفهمها وتلخيصها بدقة تقترب من دقة الإنسان.

تروي الأرقام قصة مقنعة. يتفوق نموذج OpenScholar الذي يحتوي على 8 مليارات معلمة على GPT-4o رغم أنه أصغر منه بكثير. وهو يضاهي الخبراء البشريين في دقة الاستشهادات حيث تفشل أنظمة الذكاء الاصطناعي الأخرى بنسبة 90% من الوقت. ولعل الأمر الأكثر دلالة هو أن الخبراء يفضلون إجاباته على تلك التي يكتبها أقرانهم.

وتشير هذه الإنجازات إلى أننا ندخل عصرًا جديدًا من الأبحاث بمساعدة الذكاء الاصطناعي، حيث قد لا يكون العائق أمام التقدم العلمي هو قدرتنا على معالجة المعرفة الموجودة، بل قدرتنا على طرح الأسئلة الصحيحة.

لقد أصدر الباحثون كل شيء ــ الكود، والنماذج، والبيانات، والأدوات ــ مراهنين على أن الانفتاح سوف يعمل على تسريع التقدم أكثر من إبقاء إنجازاتهم خلف الأبواب المغلقة.

وبذلك، أجابوا على أحد الأسئلة الأكثر إلحاحًا في مجال تطوير الذكاء الاصطناعي: هل تستطيع الحلول مفتوحة المصدر التنافس مع الصناديق السوداء لشركات التكنولوجيا الكبرى؟

يبدو أن الإجابة مختبئة في مكان واضح بين 45 مليون ورقة بحثية.

المصدر: venturebeat

Leave a comment