للكلمات معانٍ جمة. ونستطيع نحن البشر تحديد معاني ودلالات الكلمات بشكل جيد. ولكن هل تستطيع الحواسيب -مع دخولها عصر الذكاء الاصطناعي- فهم المعاني المختلفة والمعقدة الكامنة وراء كل كلمة.
تحمل الكلمات معاني كثيرة، وهو ما يعرف باسم "الغموض الدلالي" (Semantic ambiguity). ويتَعيّن على العقل البشري تحليل شبكة معقدة من المعلومات واستخدام الحدس الصحيح حتى يدرك المعاني الدقيقة المقصودة بهذه الكلمات.
وتستطيع محركات البحث اليوم وتطبيقات الترجمة وكذلك المساعدون الصوتيون إدراكَ وفهم ما نعنيه، ويرجع الفضل في ذلك إلى برامج معالجة اللغة التي تعطي معنى لعدد مذهل من الكلمات، دون أن نخبرها صراحة بما تعنيه هذه الكلمات. وتستنتج تلك البرامج المعنى من خلال الإحصاءات والخوارزميات التي تستخدمها.
حاول الفريق معرفة ما إذا كانت النماذج قادرة على التقاط تلك الفروق الدقيقة كما يفعل البشر. ولو كانوا كذلك، فكيف تنظم هذه النماذج المعلومات؟
ولمعرفة الكيفية التي تترتب بها الكلمات في هذا النموذج مع الفهم البشري للكلمات، طلب الفريق من متطوعين بشر تصنيف الكلمات وفقا لمقاييس مختلفة (المقاييس الدلالية): مثل هل كانت المفاهيم التي تحملها الكلمات "كبيرة أم صغيرة"، "آمنة أم خطرة"، "رطبة أم جافة" إلخ؟ وبعد أن حدد المتطوعون المكان الدقيق لهذه الكلمات طبقا لتلك المقاييس، حاول الباحثون معرفة ما إذا كانت نماذج معالجة اللغة تفعل الشيء ذاته.
ويشير جراند إلى أن نماذج معالجة اللغة تستخدم إحصاءات التكرار لتنظيم الكلمات في مصفوفة ضخمة متعددة الأبعاد. فكلما كانت الكلمات متشابهة مع بعضها بعضا في بعض المقاييس، اقتربت من بعضها داخل المصفوفة.
نماذج معالجة اللغة قد رتبت الكلمات بشكل يشبه إلى حد كبير ما يفعله البشر. فقد صنفت النماذجُ الدلافينَ والنمور بأنها متشابهة من حيث "الحجم"، بينما كانا متباعدين على مقياس "الخطر" و"الرطوبة". ونظّم نموذج معالجة اللغة الكلمات بطريقة تمنحها أنواعا مختلفة من المعاني، وقد فعل ذلك بشكل كامل استنادا إلى تكرار الكلمات في سياق النصوص التي تعلّم منها.
ومن الملفت للنظر أن نموذج معالجة اللغة صنف اسمي "بيتي" و"جورج" على أنهما متشابهان من ناحية مقياس "القِدَم"، في حين كانا متباعدين على مقياس "الجنس". كما صنف النموذج كلمة "رفع أثقال" وكلمة "مبارزة" بأنهما متشابهان في كون كليهما رياضات "داخلية"، في حين كانوا مختلفين من حيث مقدار الذكاء المطلوب.
ويشير الفريق إلى أن هذا الأمر يوضح لنا قوة اللغة. فمن خلال هذه الإحصاءات البسيطة يمكننا استعادة كثير من المعلومات الدلالية الغنية، مما يوفّر مصدرا قويا لمعرفة الأشياء التي قد لا يكون لدينا أي خبرة إدراكية مباشرة حيالها.