ظهور متن پیشبین (predictive text) در نگارش ایمیل یا پیامهای متنی، چه خوب و چه بد، به یک ویژگی ثابت در زندگی ما تبدیل شده است—با تکمیل بیدرنگ کلمات قبل از اینکه ما بتوانیم آنها را تایپ کنیم، در زمان ما صرفهجویی میکند یا با تکرار همین کار با یک اصطلاح نامرتبط، باعث ناامیدی ما میشود.
همانند سیستمهای هوش مصنوعی بهطور گستردهتر، ویژگی متن پیشبین در مدلهای زبان بزرگ (LLMها) گفته میشود که مشابه نحوه عملکرد مغز است—در این مورد، توانایی ما برای پیشبینی کلمات بعدی هنگام گوش دادن به صحبتهای دیگران.
اما در حالی که این ویژگی پیشبینی کلمه بعدی که انسانها از آن برخوردارند به خوبی شناخته شده است، نحوه عملکرد مغز در طول این فرآیند و ملاحظاتی که در این زمینه انجام میدهد، کمتر روشن است. به عبارت دیگر، آیا مغز کلمات را به همان شکلی که هوش مصنوعی انجام میدهد، پیشبینی میکند؟
یک مطالعه تازه منتشر شده توسط تیمی از دانشمندان نشان میدهد که در واقع، ما کلمات را با گذراندن یک فرآیند پیچیدهتر پیشبینی میکنیم. این تحقیق که در مجله "نیچر نوروساینس" (Nature Neuroscience) منتشر شده است، نشان میدهد که ما یک ساختار زبانی بزرگتر را در نظر میگیریم و به محیط اطراف یک کلمه در گروههای کلمات—یک سازه (constituent)—توجه میکنیم، نه فقط کلمه بعدی. این مشابه حالتی است که برای تصمیمگیری در مورد جایگذاری قطعه بعدی، به قطعات اطراف یک پازل نگاه میکنیم.
دیوید پوپل، استاد روانشناسی و علوم اعصاب در دانشگاه نیویورک و یکی از نویسندگان این مقاله، توضیح میدهد: «در حالی که LLMها برای پیشبینی کلمه بعدی آموزش دیده و بهینه شدهاند، مغز انسان با گروهبندی گرامری کلمات به عبارات، پیشبینی میکند. در LLMها، پیشبینیها عمدتاً به یک شکل ایجاد میشوند: هر کلمه از زمینه پیشبینیکننده خود به یک شیوه بهره میبرد. در مقابل، مغز انسان پیشبینیها را ابتدا با در نظر گرفتن دستههایی از کلمات—که ما آنها را سازههای گرامری مینامیم—و سپس با تعیین اینکه کدام کلمات در آن ساختار بهتر پیشبینی میشوند، انجام میدهد.»
نحوه انجام مطالعه
این مطالعه که شامل جیاجی زو، پژوهشگر پسادکترا در موسسه علوم اعصاب ارنست شترونگمان و همکار پوپل در زمان انجام مطالعه، و نای دینگ، استاد دانشگاه ژجیانگ و همکار پسادکترای سابق در آزمایشگاه پوپل بود، بر مجموعهای از آزمایشها با افراد بومی زبان چینی ماندارین متمرکز بود. در این مطالعه از مگنتوانسفالوگرافی (MEG) برای اندازهگیری فعالیت مغزی شرکتکنندگان در حالی که در معرض جملات ماندارین قرار میگرفتند، استفاده شد. علاوه بر این، مطالعه از وظایف رفتاری پیشبینی کلمه—بهطور خاص، آزمونهای کلوز (Cloze tests) که پیشبینی زبانی را با حذف کلمات خاصی از یک متن و درخواست از شرکتکنندگان برای پر کردن جاهای خالی ارزیابی میکنند—استفاده کرد. این مطالعه همچنین دادههای مغزی بیماران در معرض زبان انگلیسی را تجزیه و تحلیل کرد تا تأیید کند که یافتهها در مورد سایر زبانها نیز صدق میکند.
محققان از LLMها برای کمیسازی قابلیت پیشبینی کلمات بر اساس «آنتروپی» و «غافلگیری» آنها استفاده کردند. آنتروپی بالا نشان میدهد که زمینه به شدت محدودیتی برای کلمات بعدی ایجاد نمیکند و در نتیجه قابلیت پیشبینی کمتری دارد. به عنوان مثال، کلمه بعد از «من یک... دیدم» آنتروپی بالاتری نسبت به کلمه بعد از «من روی یک... نشستم» دارد، زیرا اشیاء بیشتری وجود دارد که میتوان دید تا اینکه روی آنها نشست. غافلگیری بالا نشان میدهد که کلمه بعدی بر اساس زمینه به خوبی انتظار نمیرود. به عنوان مثال، ظاهر شدن کلمه «گربه» بعد از «من روی یک... نشستم» غافلگیری بالاتری نسبت به «من یک... دیدم» دارد.
نویسندگان مطالعه سپس نحوه واکنش مغز به هر کلمه را با در نظر گرفتن سطح قابلیت پیشبینی کلمات بررسی کردند. به گفته محققان، مقایسه کلیدی، همبستگی واکنشهای کلمه بین پیشبینیهای دادههای مغزی و پیشبینیهای مدل LLM از همان جملات بود: اگر مغزها دقیقاً مانند دستگاههای پیشبینی کلمه بعدی، مانند LLMها، عمل کنند، این همبستگیها باید به طور یکنواخت بالا باشند؛ در مقابل، واریانس نشاندهنده این است که فرآیند متفاوتی در حال انجام است.
یافتههای پژوهش
نتایج نشان داد که مغز بسته به موقعیت ساختاری زبانی کلمات، واکنشهای متفاوتی از خود نشان میدهد. این امر حاکی از آن بود که شرکتکنندگان در پیشبینی کلمات بعدی، سازههای گرامری را در نظر میگرفتند.
در مقابل، LLMها نیازی به چنین حساسیتی نسبت به ساختار سازهای زبانی ندارند یا آن را منعکس نمیکنند—آنها صرفاً پیشبینیهایی ارائه میدهند.
پوپل نتیجهگیری میکند: «مغز ما نیز، مانند سیستمهای هوش مصنوعی، میتواند از پیشبینی کلمه بعدی بهره ببرد. با این حال، مغزها به شدت به ساختار سازهای زبانی حساس هستند. این تحقیق نشان میدهد که پیشبینی کلمه بعدی توسط در نظر گرفتن "دستههایی از کلمات" که به صورت گرامری سازماندهی شدهاند، تعدیل و متعادل میشود—که کاملاً متفاوت از نحوه عملکرد LLMها است.»