Skip to content Skip to footer

إعادة صياغة لغة الآلات: تعليم الذكاء الاصطناعي التواصل كالبشر

بقلم: Alex Shipps 

January 9, 2025

مستوحى من الجهاز الصوتي البشري، استطاع نموذج ذكاء اصطناعي جديد إنتاج وفهم تقليد صوتي للأصوات اليومية. قد تُستخدم هذه التقنية لتطوير واجهات صوتية مبتكرة لأغراض الترفيه والتعليم.

تخيل أنك تحاول وصف صوت محرك سيارتك المعطل أو تحاكي مواء قطة جارك. تقليد الأصوات باستخدام صوتك يمكن أن يكون وسيلة فعالة لتوضيح فكرة عندما لا تكفي الكلمات. يشبه هذا التقليد الصوتي تمامًا ما تقوم به عند رسم صورة سريعة لتوضيح شيء رأيته. الفرق هنا هو أنك بدلًا من استخدام قلم لرسم الصورة، تستخدم جهازك الصوتي لإنتاج الصوت. قد يبدو هذا صعبًا، لكنه شيء نقوم به جميعًا بالفطرة. جرّب الأمر بنفسك! حاول تقليد صوت صفارة إسعاف، أو صوت غراب، أو جرس يُدق.

استلهامًا من علوم الإدراك وطريقة تواصلنا، طوّر باحثو مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا (CSAIL) نظام ذكاء اصطناعي يمكنه إنتاج تقليد صوتي يشبه صوت البشر، دون أي تدريب مسبق، بل وبدون أن “يسمع” أي تقليد صوتي بشري من قبل.

لكي يحققوا هذا الإنجاز، صمم الباحثون نظامًا يحاكي طريقة البشر في إنتاج وفهم الأصوات. بدأوا ببناء نموذج للجهاز الصوتي البشري، يحاكي كيفية تشكيل الحلق واللسان والشفتين للاهتزازات الناتجة عن الحنجرة. بعد ذلك، استخدموا خوارزمية ذكاء اصطناعي مستوحاة من علم الإدراك للتحكم بهذا النموذج وجعله ينتج تقليدًا صوتيًا يأخذ في الحسبان السياق الذي يُستخدم فيه الصوت.

يمكن للنظام أخذ أصوات متعددة من العالم حولنا، مثل حفيف الأوراق أو فحيح الأفاعي أو صفارة سيارات الإسعاف، وإنتاج تقليد صوتي يشبه ما قد يصدره البشر. ليس ذلك فقط، بل يمكنه العمل بالعكس أيضًا، حيث يميز بين الأصوات الحقيقية من التقليد الصوتي البشري. على سبيل المثال، يمكنه التفريق بين شخص يقلد “مواء” القطة وآخر يقلد “فحيح الأفعى”.

في المستقبل، يمكن لهذه التقنية أن تُحدث طفرة في تصميم واجهات تعتمد على تقليد الصوت، أو تطوير شخصيات ذكاء اصطناعي أكثر قربًا للطبيعة البشرية في عوالم الواقع الافتراضي، أو حتى ابتكار طرق جديدة تساعد الطلاب على تعلم لغات جديدة.

يشير مؤلفو البحث الرئيسيون — Kartik Chandra وKarima Ma من طلاب الدكتوراه في معهد ماساتشوستس للتكنولوجيا، والباحث الجامعي Matthew Caren — إلى أن واقعية الرسومات الحاسوبية لم تكن يومًا الهدف النهائي للتعبير البصري. على سبيل المثال، يمكن للوحة فنية مجردة أو رسم بسيط بأقلام التلوين أن يكون معبرًا بقدر ما تكون الصورة الفوتوغرافية.

يعلق Chandra قائلًا: “على مدار العقود الأخيرة، أدت التطورات في خوارزميات الرسم إلى ظهور أدوات جديدة للفنانين، وإلى تقدم في الذكاء الاصطناعي ورؤية الكمبيوتر، بل وأيضًا إلى فهم أعمق للإدراك البشري. وبالمثل، يُمكن اعتبار طريقتنا وسيلة لالتقاط الطرق المجردة وغير التقليدية التي يعبر بها البشر عن الأصوات التي يسمعونها. وهذا يُساعدنا في فهم عملية التجريد السمعي بشكل أفضل”.

فن التقليد في ثلاث مراحل

عمل الفريق على تطوير ثلاث نسخ متدرجة التعقيد من النموذج لمقارنتها بتقليد البشر للأصوات. في البداية، أنشأوا نموذجًا أساسيًا يهدف ببساطة إلى إنتاج تقليد يشبه الأصوات الحقيقية قدر الإمكان، لكنه لم يكن قريبًا بشكل كافٍ من السلوك البشري.

ثم صمّم الباحثون نموذجًا ثانيًا أكثر تطورًا، أطلقوا عليه اسم “النموذج التواصلي”. وكما أوضح الباحث Matthew Caren، فإن هذا النموذج يركز على السمات المميزة للصوت بالنسبة للمستمع. فعلى سبيل المثال، عند تقليد صوت قارب بمحرك، قد تحاكي صوت المحرك، كونه السمة السمعية الأكثر وضوحًا، حتى لو لم يكن الأعلى صوتًا (مقارنةً بأصوات مثل رذاذ الماء). كان هذا النموذج أكثر دقة من النموذج الأساسي، لكنه لم يصل إلى طموحات الفريق بعد.

لتحقيق مستوى أعلى من الدقة، أضاف الباحثون طبقة جديدة من التفكير للنموذج. وكما يقول Kartik Chandra: “تقليد الأصوات قد يختلف بناءً على الجهد الذي تبذله. إنتاج صوت دقيق جدًا يتطلب وقتًا وطاقة”. لذا، يأخذ النموذج الكامل في الحسبان تجنب إصدار أصوات تكون شديدة السرعة أو مرتفعة جدًا أو منخفضة النغمة بشكل مبالغ فيه، حيث إن البشر عادةً ما يتجنبون هذه الأنماط أثناء التواصل. النتيجة كانت تقليدًا صوتيًا أكثر واقعية يشبه القرارات التي يتخذها البشر عند تقليد نفس الأصوات.

بعد الانتهاء من تصميم النموذج، أجرى الفريق تجربة لقياس مدى تفضيل الناس للتقليد الصوتي الذي ينتجه الذكاء الاصطناعي مقارنة بالتقليد البشري. اللافت أن المشاركين في التجربة اختاروا تقليد الذكاء الاصطناعي بنسبة 25% بشكل عام، ووصلت النسبة إلى 75% عند تقليد صوت قارب بمحرك، و50% عند تقليد صوت طلقة نارية.

نحو تكنولوجيا صوتية أكثر تعبيرًا

بفضل شغفه بالتكنولوجيا المخصصة للموسيقى والفنون، يتصور Caren أن هذا النموذج يمكن أن يساعد الفنانين على توصيل الأصوات لأنظمة الحوسبة بطريقة أكثر فعالية. كما يمكن أن يكون أداة مفيدة لصناع الأفلام وغيرهم من المبدعين لإنتاج أصوات ذكاء اصطناعي أكثر دقة وتناسبًا مع السياق. بل يمكن أيضًا أن يساعد الموسيقيين على البحث بسرعة في قواعد بيانات الأصوات عن طريق تقليد الضوضاء التي يصعب وصفها بالكلمات فقط.

في الوقت الحالي، يدرس Caren وChandra وKarima Ma إمكانيات استخدام نموذجهم في مجالات أخرى، مثل تطور اللغة، وكيفية تعلم الأطفال الكلام، وحتى دراسة سلوكيات التقليد لدى الطيور مثل الببغاوات والطيور المغرّدة.

ومع ذلك، لا يزال هناك الكثير من العمل لتحسين النموذج. فعلى سبيل المثال، يواجه النموذج صعوبة في التعامل مع بعض الحروف الساكنة مثل “z”، مما يؤدي إلى تقليد غير دقيق لأصوات مثل طنين النحل. كما أنه لم يصل بعد إلى مرحلة يمكنه فيها محاكاة كيفية تقليد البشر للكلام أو الموسيقى أو الأصوات التي يتم تقليدها بطرق مختلفة اعتمادًا على اللغة، مثل صوت دقات القلب.

أشار البروفيسور روبرت هوكينز، أستاذ علم اللغة في جامعة ستانفورد، إلى أن اللغة مليئة بالكلمات التي تحاكي الأصوات (مثل كلمة “مواء” التي تحاكي صوت القطة ولكن بشكل غير دقيق). وأضاف: “العمليات التي تحول الصوت الحقيقي إلى كلمات مثل ‘مواء’ تكشف الكثير عن العلاقة المعقدة بين الفسيولوجيا البشرية، والتفكير الاجتماعي، والتواصل في تطور اللغة.” ويرى هوكينز، الذي لم يكن جزءًا من هذا البحث، أن النموذج يمثل خطوة مثيرة نحو فهم وصياغة هذه العمليات، إذ يثبت أن القيود الفسيولوجية للجهاز الصوتي البشري والضغوط الاجتماعية الناتجة عن التواصل كلاهما عاملان ضروريان لفهم كيفية تقليد الأصوات وانتشارها.

كتب Caren وChandra وMa هذه الدراسة بالتعاون مع اثنين من باحثي مختبر CSAIL، هما البروفيسور Jonathan Ragan-Kelley من قسم الهندسة الكهربائية وعلوم الكمبيوتر في MIT، والبروفيسور Joshua     Tenenbaum من قسم علوم الدماغ والإدراك وعضو مركز العقول والعقول والآلات. وقد حصل هذا العمل على دعم جزئي من مؤسسة هيرتز ومؤسسة العلوم الوطنية، وتم تقديمه في مؤتمر SIGGRAPH Asia في بداية ديسمبر.

المصدر: news.mit

Leave a comment