Skip to content Skip to footer

أيهما يتفوق في بناء وكلاء الذكاء الاصطناعي؟ مقارنة بين ChatGPT وClaude وGemini

بقلم: Jose Antonio Lanz

Jan 5, 2025

من خلال تجربة عملية ومقارنة بين خمس منصات رائدة في عالم الذكاء الاصطناعي، يمكننا تحديد أي منها ستكون الخيار الأفضل لاستضافة وكلائك الذكية وتنفيذ المهام اليومية بسلاسة.

يمكنك فعل أي شيء تقريبًا باستخدام وكلاء الذكاء الاصطناعي: البحث في مكتبة المستندات الخاصة بك، كتابة الأكواد، جمع البيانات من الإنترنت، تحليل البيانات المعقدة بعمق، والكثير غير ذلك. يمكنك حتى إنشاء مكتب افتراضي يتكون من مجموعة وكلاء متخصصين في مهام مختلفة، وجعلهم يعملون معًا كفريق واحد، مثل موظفين رقميين متخصصين تحت إدارتك.

لكن السؤال هو: ما مدى صعوبة تحقيق هذا؟

لنفترض أن شخصًا عاديًا يريد بناء مستشار مالي خاص به يعتمد على الذكاء الاصطناعي، ما هي المنصة التي ستكون الأفضل له؟ بدون الحاجة إلى تعلم واجهات برمجة التطبيقات (API)، أو كتابة أكواد معقدة، أو التعامل مع منصات مثل Github—أردنا ببساطة اختبار مدى نجاح شركات الذكاء الاصطناعي في تقديم وكلاء ذكاء اصطناعي يمكن لأي شخص، حتى بدون مهارات تقنية عالية، إنشاؤها واستخدامها.

بالطبع، الجودة تأتي مع السعر. في هذه الحالة، أردنا أيضًا معرفة ما إذا كان هناك علاقة بين سهولة إنشاء وكيل ذكاء اصطناعي من قبل شخص غير متخصص، وجودة النتائج التي يقدمها الوكيل. استخدمنا تعريفًا بسيطًا للوكيل: قمنا بتزويد النموذج بسياق معين، وقاعدة معرفية، وتعليمات حول كيفية تنفيذ عملية تفكير.

إذا كنت تبحث عن منصة سهلة الاستخدام لإنشاء وكيل ذكاء اصطناعي دون الحاجة إلى مهارات تقنية متقدمة، فقد تكون منصات مثل ChatGPT من OpenAI أو Copilot من Microsoft خيارات جيدة. هذه المنصات توفر واجهات بسيطة تسمح للمستخدمين بإنشاء وكلاء ذكاء اصطناعي لأغراض مختلفة، مثل الاستشارات المالية، دون الحاجة إلى الخوض في تعقيدات البرمجة.

ومع ذلك، تذكر أن جودة النتائج تعتمد بشكل كبير على مدى دقة البيانات التي تقدمها للوكيل، وكيفية صياغة التعليمات التي توجهه. كلما كانت التعليمات أكثر وضوحًا وشمولية، كانت النتائج أفضل. لذلك، حتى لو كانت المنصة سهلة الاستخدام، فإن الحصول على نتائج عالية الجودة يتطلب بعض الجهد في إعداد السياق والتعليمات بشكل دقيق.

في تجربتنا، وضعنا خمسة من كبار اللاعبين في مجال الذكاء الاصطناعي في مواجهة بعضهم البعض: ChatGPT، وClaude، وHuggingface، وMistral AI، وGemini. كل منصة تلقت نفس التعليمات الأساسية لإنشاء مستشار مالي يعتمد على الذكاء الاصطناعي.

ركزنا في الاختبار بشكل كامل على القدرات الجاهزة لهذه المنصات، دون إجراء أي تعديلات أو إضافات. الهدف كان معرفة ما إذا كانت هذه الوكلاء قادرة على التعامل مع سيناريو بسيط وشائع—وهو مساعدة شخص في إدارة محفظة استثمارية بقيمة 25,000 دولار مع وجود ديون تصل إلى 30,000 دولار. بالإضافة إلى ذلك، أردنا اختبار مدى جودة هذه المنصات في تحليل مخطط تداول مالي.

قررنا عدم استخدام أي أدوات إضافية لتعزيز أداء الوكلاء، وبدلًا من ذلك، اخترنا اتباع أبسط طريقة ممكنة لمعرفة ما يمكن تحقيقه دون تعقيدات. الفكرة كانت فهم ما يمكن أن تقدمه هذه المنصات مباشرةً، دون الحاجة إلى خبرة تقنية متقدمة.

إليكم ما اكتشفناه وكيف قمنا بتصنيف المنصات:

تصنيف المنصات:

  • GPT من OpenAI 

(8.5/10)

  • سهولة الإعداد: 4/5 
  • جودة النتائج: 4.5/5

يعد ChatGPT المنصة الأكثر توازنًا، حيث يوفر إنشاء وكلاء متطورين مع خيارات موجهة ويدوية لتلبية احتياجات المبتدئين وأيضًا المستخدمين الأكثر خبرة.

ورغم أن التحديثات الأخيرة للواجهة ألغت بعض الميزات في القوائم، إلا أن المنصة تتفوق في تحويل المتطلبات المعقدة إلى وكلاء وظيفيين. اختبرنا النموذج من خلال بناء مستشار مالي أظهر قدرة عالية على فهم السياق وحل المشكلات بشكل منظم، مما قدم استراتيجيات دقيقة وواضحة لإدارة الديون وتوزيع الاستثمارات.

  • Google Gemini 

(7/10)

  • سهولة الإعداد: 4/5 
  • جودة النتائج: ⅗

يتميز Google Gemini بواجهة مستخدم أنيقة وسهلة الاستخدام، مع قدرة ممتازة على التعامل مع الأخطاء. وعلى الرغم من أنه يحتاج إلى تعليمات أكثر تفصيلًا للحصول على أفضل النتائج، إلا أن تفسيره الحرفي للتعليمات يؤدي إلى نتائج ثابتة وقابلة للتنبؤ.

يعتمد الوكيل في تقديم النصائح المالية على جمع السياق أولاً قبل تقديم التوصيات، وهو ما يشبه أسلوب العمل المهني. ومع ذلك، قد يكون أسلوبه في الردود غير المدعومة محافظًا جدًا في بعض الأحيان.

  • HuggingCha

(6.5/10)

  • سهولة الإعداد: 2/5 
  • جودة النتائج: 4.5/5

توفر هذه المنصة مفتوحة المصدر خيارات تخصيص واسعة واختيار نماذج لا مثيل لها. إنه مثالي لأولئك الذين يريدون تحكمًا دقيقًا في كل جانب من جوانب النظام، لكنه ليس الخيار الأنسب لأولئك الذين يبحثون عن بساطة الاستخدام. (يمكنك أن تشبه ذلك بمقارنة بين نظام Linux ونظام macOS). تظهر قدرات متطورة أيضًا في إطار عملها المتقدم لإدارة الأفق الزمني ودمج الأدوات العملية.

قمنا ببناء وكيل بسيط بدون إضافة أي وظائف إضافية. استخدمنا نموذج Nvidia Nemomotron كنموذج لغوي أساسي، وكان أداؤه جيدًا بما يكفي لمنافسة ChatGPT في جودة النتائج. ليس سيئًا بالنسبة للمجتمع مفتوح المصدر.

  • Claude 

(5.5/10)

  • سهولة الإعداد: 2.5/5 
  • جودة النتائج: 3/5

تتفوق منصة Anthropic في بعض المجالات المتخصصة، خصوصًا في المهام التي تتطلب معالجة سياقية معقدة وتفسير الأكواد. واجهتها البسيطة قد تخفي بعض القدرات المتطورة، لكن حقل التعليمات “الاختياري” قد يكون محيرًا لبعض المستخدمين.

ظل وكيلنا متحفظًا وغامضًا في نصائحه، لكنه أظهر وعيًا جيدًا بالمخاطر وقدرة على التفكير الاستراتيجي. يحتاج الأمر إلى تعليمات أكثر دقة لاستخراج أفضل النتائج منه، ولكن من غير العادل تعديل التعليمات أثناء الاختبار لأن ذلك يتناقض مع فكرة اختبار الظروف المتساوية.

  • Mistral AI 

(5/10)

  • سهولة الإعداد: 2.5/5 
  • جودة النتائج: 2.5/5

تقدم المنصة الفرنسية طريقة تعلم فريدة تعتمد على الأمثلة مع خيارات تخصيص متعددة. ومع ذلك، واجهتها التي تركز على المطورين وبعض مشاكل التبديل بين اللغات قد تجعل استخدامها صعبًا بالنسبة للمستخدمين العاديين. كما يتطلب الأمر تعديل تكوين الوكيل لاستخدام نماذج مختلفة لأداء مهام متنوعة مثل تحليل الصور أو التعامل مع الأكواد، وهذا ليس مثاليًا.

أظهر المستشار المالي بعض الإمكانات في تصميم التفاعل، لكنه واجه صعوبة في التحقق من الحسابات الرياضية البسيطة وقدم دقة أقل في النتائج. هذا لا يعني أن النتائج كانت سيئة، ولكن في اختبار بدون أي دعم مسبق، كانت هذه النتيجة الأقل رضا.

التحليل المتعمق

من خلال التصنيف الذي قدمناه، نرى أنه لا يوجد حل واحد يناسب الجميع، فكل منصة لها مزايا وعيوب خاصة بها. مع تخصيص التعليمات بعناية والاهتمام بالتفاصيل، قد تختلف النتائج بين المنصات، وقد تتفوق إحداها على الأخرى. في النهاية، لكل نموذج لغوي (LLM) أسلوبه الخاص في التعامل مع التعليمات.

إذا كنت ترغب في معرفة المزيد عن الأسباب وراء ترتيبنا، إليك نظرة أعمق على تجربتنا والنتائج التي حصلنا عليها من وكلائنا. قمنا بتكوين جميع وكلائنا بنفس التعليمات الأساسية، دون إضافة أي معلمات أو وظائف إضافية، وطرحنا عليهم نفس السؤال: “لدي 25 ألف دولار للاستثمار و 30 ألف دولار من الديون. أعد لي خطة مالية.”

حصلت واجهة ChatGPT مؤخرًا على تحديث جعل الأمور أكثر تعقيدًا. أصبح خيار إنشاء GPT الآن مخفيًا داخل القوائم، لكن بمجرد أن تعثر عليه، ستجد أمامك خيارين: إعداد محادثة حيث يساعدك الذكاء الاصطناعي في بناء وكيلك، أو إعداد يدوي لأولئك الذين يعرفون بالضبط ما يريدون.

منصة GPT من OpenAI تشبه إلى حد كبير سكين الجيش السويسري من حيث الإمكانيات، فهي تستطيع قراءة الأكواد، البحث على الإنترنت، والتعامل مع إنشاء وتحليل الصور. عملية الإعداد الموجهة بالذكاء الاصطناعي تجعلها مثالية للمبتدئين، رغم أنها قد تكون محدودة بعض الشيء بالنسبة للمستخدمين المتقدمين الذين يرغبون في تحكم دقيق. (على سبيل المثال، إذا طلبت من النموذج أن يكون أكثر دقة أو تفصيلًا، قد يؤدي ذلك إلى تغيير كامل في التعليمات الأصلية، مما يؤدي إلى نتائج أسوأ).

عند استخدام الوكيل، يعد ChatGPT سهل الاستخدام للغاية والواجهة بسيطة وواضحة. يمكن للوكلاء قراءة الوثائق وفهم الصور بشكل مباشر، مما يمنحها ميزة عن باقي المنصات.

لننتقل الآن للحديث عن جودة الوكلاء الذين يمكنك إنشاؤهم باستخدام التعليمات الأساسية. كان مستشارنا المالي، الذي أسميناه MoneyGPT، مثيرًا للإعجاب للغاية، وقدّم لنا درسًا رائعًا في حل المشكلات المنظمة.

بعيدًا عن تخصيصاته الدقيقة—مثل “20,000 دولار لسداد الديون ذات الفائدة المرتفعة” وتقسيمات المحفظة التفصيلية— أظهر الوكيل تفكيرًا ماليًا عميقًا. قدم خطة من خمس خطوات لم تكن مجرد قائمة، بل استراتيجية متماسكة تأخذ في اعتبارها كل من الاحتياجات العاجلة والتخطيط بعيد المدى.

كانت قوة الوكيل تكمن في قدرته على التوازن بين التفاصيل والسياق. فهو لا يوصي فقط باستثمارات معينة (مثل 40% في S&P 500 و30% في السندات)، بل يشرح أيضًا المنطق وراء كل قرار: “سداد الديون ذات الفائدة المرتفعة يشبه الحصول على عائد مضمون على استثمارك.” هذا الوعي السياقي امتد إلى التخطيط على المدى الطويل، حيث اقترح مراجعات دورية واستراتيجيات قابلة للتكيف بناءً على التغيرات في الظروف.

لكن، هذا الكم الكبير من المعلومات كشف عن نقطة ضعف محتملة: خطر إغراق المستخدمين بالكثير من التفاصيل دفعة واحدة. ورغم أن النتائج كانت شاملة من الناحية الفنية، فإن تقديم التخصيصات المحددة، استراتيجيات الاستثمار، وخطط المراجعة بسرعة قد يكون مربكًا للمبتدئين في المجال المالي.

Google

بشكل عام، تفوز منصة Gemini من جوجل في المسابقة بفضل واجهتها الأنيقة والبديهية التي تجعل من إنشاء الوكلاء أمرًا سهلًا جدًا. النظام يتعامل مع التعليمات حرفيًا، مما يساعد في تجنب أي لُبس، كما أن واجهته النظيفة تزيل الخوف الذي قد يشعر به البعض عند تطوير الذكاء الاصطناعي.

ولكن، من أجل الحصول على أفضل النتائج، تحتاج إلى إعطاء النظام تعليمات أكثر تفصيلًا. لا يتعامل مع الأمور بشكل عابر: إذا كانت التعليمات قصيرة، فستحصل على إجابة منخفضة الجودة. لكن، عندما ننظر إلى ما وراء الكواليس، نجد أن المنصة تحتوي على قدرات قوية—من دمج بحث الويب المدعوم من جوجل، وتحليل الأكواد، ومعالجة الصور التي تنافس ما يقدمه ChatGPT، على الرغم من اعتمادها في الغالب على تكنولوجيا مايكروسوفت.

عندما ترى واجهة Gemini تشعر وكأنها صُممت من قبل أشخاص يفهمون جيدًا كيف يجب أن تكون تجربة المستخدم. تقدم الواجهة للمستخدمين تعليمات واضحة، وكل شيء يظهر على شاشة واحدة فقط. هذه الطريقة الواضحة تجعل المنصة جذابة جدًا للمبتدئين، رغم أن المستخدمين الأكثر خبرة قد يتمنون مزيدًا من التحكم الدقيق.

قمنا بتسمية وكيلنا MoneyGem وطلبنا منه إعداد خطة مالية. أظهر الوكيل نهجًا استشاريًا يعكس طريقة جوجل الفريدة في حل المشكلات. بدلًا من تقديم إجابة مباشرة، بدأ بأسئلة مثل “ما نوع الديون؟” و “ما هي معدلات الفائدة؟”، مما أظهر فهمًا بأن النصائح المالية لا تأتي بحجم واحد يناسب الجميع.

تركيزه على جمع السياق قبل تقديم التوصيات يتماشى مع طرق التخطيط المالي المهنية، رغم أنه قد يكون مُحبطًا للمستخدمين الذين يبحثون عن إجابات سريعة. كانت الإجابة بدون تلميحات غير مفيدة. قال الوكيل ببساطة إنه لا يعرف المستخدم بما يكفي لتقديم نصائح مالية جيدة. بعد أن طلبنا منه أن يفترض بعض الأمور وطلبنا منه تقديم خطة تناسب معظم السيناريوهات، أنشأ الوكيل مسودة خطة محافظة جدًا دون أن يقدم اقتراحات محددة حول الاستثمارات التي يجب النظر فيها.

لكن، في النهاية، اختتم إجابته بتوصية رائعة لزيادة الاستفادة من الحسابات المُعفاة من الضرائب مثل 401(k) أو Roth IRA لتقليل العبء الضريبي. خطوة جيدة.

Mistral AI

طريقة mistral في تكوين العملاء بعيدة قليلاً عن البساطة. أداة إنشاء العملاء مخفية داخل وحدة التحكم الخاصة بالمُطور، مع العديد من خيارات التخصيص التي قد تكون معقدة للمبتدئين لكنها ممتعة لأولئك الذين يحبون التعديل والتجربة.

واجهة بناء العميل ليست جزءاً من “LeChat” (واجهة الدردشة)، ولكنها ستظهر هناك بمجرد إنشاء العميل.

أحد الأمور التي أحببناها حقاً هو إمكانية تزويد الأداة بأمثلة تُساعد في تشكيل سلوك العميل وأسلوب استجابته، وهو شيء لا توفره أي منصة أخرى في الوقت الحالي. ولكن هناك مشكلة غريبة: أثناء إنشاء عميلنا، تغيرت واجهة المستخدم فجأة إلى اللغة الفرنسية، ربما لأن الشركة فرنسية. ومع ذلك، لم نتمكن من العودة إلى اللغة الإنجليزية أو الإسبانية.

بمجرد إنشاء العميل، يجب على المستخدمين استدعاؤه من خلال واجهة الدردشة العادية للعمل معه. يتعين عليهم الخروج من “Le Plateforme” والانتقال إلى “Le Chat”، وهو ما قد لا يكون الأكثر بديهية. ومع ذلك، فإن واجهة المستخدم لاستخدام العميل بسيطة وسهلة، وتبدو مثل أي دردشة ذكية أخرى.

قمنا بإنشاء عميلنا وأسميناه “Le Money” تكريماً للجذور الفرنسية لmistral. أداء العميل أظهر بوضوح نهج mistral في حل المشكلات بطريقة عامة. اقتراحه لتخصيص 10,000 دولار للطوارئ، 15,000 دولار لسداد الديون، و10,000 دولار للاستثمارات كان واضحاً، لكنه أظهر أن النظام يفتقر إلى بعض التحقق الرياضي البسيط.

المجموع الكلي البالغ 35,000 دولار تجاوز الأموال المتاحة بـ10,000 دولار، وهو خطأ أساسي يظهره بعض نماذج اللغة عندما تعطي الأولوية للمفاهيم على الحسابات الدقيقة.

لكن يجب أن نلاحظ أن أفضل نماذج اللغة قد تحسنت كثيراً ولم تعد ترتكب مثل هذا الخطأ—على الأقل ليس بنفس التكرار الذي يظهره نموذج mistral.

بخلاف ذلك، لم تكن الخطة التي قدمها العميل مفصلة للغاية، لكنها كانت الوحيدة التي قدمت أسئلة متابعة يمكن أن تجعل التفاعل أكثر سلاسة وتساعده في فهم احتياجات المستخدم بشكل أفضل.

Anthropic

مشاريع Claude تبدو كأنها نظام لتنفيذ المهام المعقدة أكثر من كونها منصة لإنشاء العملاء. الواجهة بسيطة للغاية، ربما أكثر من اللازم، وقد لا تكون بديهية بالنسبة لبعض المستخدمين.

قد يشعر بعض المستخدمين بالحيرة بسبب هذه الواجهة البسيطة. تقدم المنصة إعداداً بسيطاً جداً مع حقل “إرشادات” “اختياري”، وهو ما قد يبدو غير مهم وأيضاً ضرورياً في نفس الوقت: إذا كانت الإرشادات اختياريّة، فكيف سيتعرف العميل الذكي على ما يجب فعله؟

الواجهة البسيطة قد تبدو غريبة، ولكن Anthropic  لم تُعرف بتميزها في اختيار تصميم واجهات المستخدم. نفس النافذة التي تستخدمها لتكوين النموذج هي التي تستخدمها لتحفيزه. تركّز قدراته بشكل رئيسي على تفسير أكواد النصوص فقط، ولا تقدم أي خدمات أخرى مثل البحث على الإنترنت أو معالجة الصور وإنشائها، وهي أمور تتركها  Anthropic لمنافسيها.

عميلنا، الذي أسميناه “MoneyClaude”، غير متاح للاختبار العام لأن شركة Anthropic لا تسمح بذلك. اتخذت الشركة موقفًا حذرًا جدًا عندما قدمت نصائح مالية، حيث كانت الإجابات دقيقة من الناحية الفنية ولكنها كانت عامة جدًا، على سبيل المثال هذه الاجابة: “الحفاظ على توازن بين تقليل الديون والتوفير الأساسي” 

طلب العميل معلومات إضافية، ولكن على الأقل تأكد من تقديم استراتيجية عامة في غياب هذه المعلومات، دون الحاجة إلى مزيد من التفاعل، وهو ما يبدو أفضل من نهج جوجل.

Hugging Face

يعد مستودع Hugging Face المفتوح المصدر بمثابة جنة للمستخدمين المتقدمين، وكابوسًا للمبتدئين. فهو المنصة الوحيدة التي تسمح للمستخدمين باختيار نموذج اللغة الذي يفضلونه، مما يوفر لهم تحكمًا غير مسبوق في كيفية بناء العميل.

بالإضافة إلى ذلك، يوجد للمستخدمين العديد من الأدوات المختلفة التي يمكن دمجها مع عملائهم، لكن يمكن تفعيل ثلاث أدوات فقط في نفس الوقت. هذه القيود تجبر المستخدمين على التفكير بتمعّن حول الأدوات التي يجب استخدامها في كل حالة، وهو أمر لا توفره أي منصة أخرى.

تعتبر هذه المنصة الأكثر تخصيصًا بين جميع الواجهات، ومعها العديد من الخيارات لضبط الإعدادات. النتيجة هي منصة قوية يمكنها إنشاء عملاء أكثر تخصصًا من منافسيها، ولكن فقط إذا كان المستخدم يعرف بالضبط ما يفعله.

يمكن للمستخدمين تجربة عملائهم عبر “HuggingChat”، وهو بمثابة حلم للمستخدمين المتقدمين. بمجرد إنشاء العميل، يصبح استخدامه بسيطًا جدًا. تعرض الواجهة بطاقة تحتوي على اسم العميل، ووصفه، وصورته. كما تسمح للمستخدمين بمشاركة رابط العميل وتعديل إعداداته مباشرة من البطاقة.

عند اختبار عميل “HuggingMoney”، تبين أنه يتعامل مع إطار زمني مرن، مما يُظهر فهماً أعمق لعلم نفس التخطيط المالي. إن تقسيمه إلى “المدى القصير (0-24 شهرًا)، المدى المتوسط (24-60 شهرًا)، والبعيد (أكثر من 60 شهرًا)” يتماشى مع ممارسات التخطيط المالي الاحترافية.

اقترح العميل تخصيص “0-5000 دولار في شكل أدوات سيولة منخفضة المخاطر” مع الحفاظ على دفعات ديون شهرية تتراوح بين “1000-1500 دولار”. وهذا يشير في البداية إلى فهم جيد لإدارة التدفق النقدي.

هناك ميزة مثيرة أخرى هي دمج الأدوات العملية مع النصائح النظرية. بدلاً من مجرد تقديم قاعدة 50/30/20، أوصى بتطبيقات موازنة معينة وأكد على أهمية تحسين الضرائب، مما خلق رابطًا بين الاستراتيجيات العليا والتطبيق العملي اليومي. إذاً ماهو العيب الرئيسي؟ إنه يتضمن افتراضات حول معدلات الفائدة على الديون دون طلب التوضيح.

في سعيه لتقديم نصائح مفيدة، يأخذ العميل الكثير من الأمور على أنها مُسلّمات. هذه الرغبة في تقديم إجابة مهما كان الأمر يمكن معالجتها بالتوجيه، لكنها تظل نقطة يجب الانتباه لها.

المصدر: decrypt

Leave a comment