رویای یک ماهی بابل - حیوان مترجمی که توسط فرانشیز علمی-تخیلی کلاسیک «راهنمای مسافران مجانی کهکشان» پیشبینی شده بود - میتواند کمی به واقعیت نزدیکتر شود. محققان در غول فناوری متا، یک سیستم یادگیری ماشینی ایجاد کردهاند که تقریباً به طور همزمان گفتار را در 101 زبان به کلماتی که توسط یک سنتز کننده صدا در هر یک از 36 زبان مقصد صحبت میشوند، ترجمه میکند.
سیستم ترجمه ماشینی چندزبانه و چندوجهی انبوه (SEAMLESSM4T) همچنین میتواند گفتار را به متن، متن را به گفتار و متن را به متن ترجمه کند. نتایج در 15 ژانویه در مجله Nature شرح داده شده است1.
متا، که مقر آن در منلو پارک، کالیفرنیا است و سایتهای رسانههای اجتماعی مانند فیسبوک، واتساپ و اینستاگرام را اداره میکند، میگوید SEAMLESSM4T را به صورت منبع باز در اختیار سایر محققانی که میخواهند بر اساس آن توسعه دهند، قرار میدهد. پس از موفقیت در انتشار مدل زبان بزرگ LLaMA برای توسعهدهندگان در سراسر جهان.
کمبود داده
ترجمه ماشینی در چند دهه گذشته، تا حد زیادی به لطف معرفی شبکههای عصبی که بر روی مجموعههای داده بزرگ آموزش داده میشوند، گامهای بزرگی برداشته است. دادههای آموزشی برای زبانهای اصلی - به ویژه انگلیسی - فراوان است، اما به طور مشهور برای بسیاری از زبانهای دیگر کمیاب است. این نابرابری دامنه زبانهایی را که میتوان ماشینها را برای ترجمه آنها آموزش داد، محدود کرده است. آلیسون کونکه، دانشمند علوم کامپیوتر در دانشگاه کرنل در ایتاکا، نیویورک، در یک مقاله خبری و دیدگاهی که همراه با این مقاله است، مینویسد: «این موضوع بر زبانهایی که به ندرت در اینترنت ظاهر میشوند تأثیر میگذارد.»
تیم متا بر اساس کار قبلی خود در زمینه ترجمه گفتار به گفتار2 و همچنین پروژهای به نام هیچ زبانی جا نماند3، که هدف آن ارائه ترجمه متن به متن برای حدود 200 زبان بود، ساخته شده است. از طریق تجربه، محققان در متا و جاهای دیگر دریافته اند که چند زبانه کردن سیستم های ترجمه می تواند عملکرد آنها را حتی در ترجمه زبان هایی با داده های آموزشی محدود بهبود بخشد. دلیل این امر مشخص نیست.
این تیم میلیونها ساعت فایل صوتی از گفتار را به همراه ترجمههای انسانی آن گفتار از اینترنت و سایر منابع مانند آرشیو سازمان ملل جمعآوری کرد. نویسندگان همچنین رونوشت هایی از برخی از آن سخنرانی ها را جمع آوری کردند.
این تیم همچنین از دادههای قابل اعتماد برای آموزش مدل برای شناسایی دو قطعه محتوای مشابه استفاده کرد. این امر به محققان اجازه داد تا حدود نیم میلیون ساعت صدا را با متن جفت کنند و به طور خودکار هر قطعه یک زبان را با همتای خود در زبانهای دیگر مطابقت دهند.
گفتار به گفتار
این سیستم می تواند گفتار را بدون تبدیل آن به متن نوشتاری ابتدا به گفتار ترجمه کند. از یک سنتز کننده گفتار برای تولید صدا استفاده می شود. می تواند گفتار را از هر یک از 101 زبان ترجمه کند، اگرچه نتایج تا کنون فقط به 36 زبان در دسترس است. این سیستم همچنین می تواند سایر کارهای ترجمه مانند متن به گفتار را با دامنه های مختلف زبان انجام دهد.
مارتا کاستا-ژوسا، دانشمند علوم کامپیوتر در متا و یکی از نویسندگان این مقاله، میگوید که عملکرد نه تنها با افزایش تعداد زبانها، بلکه با ادغام ترکیبات مختلف متن و گفتار نیز افزایش یافته است. او می گوید: «اینها کلیدهای بهبود هستند. تأخیر زمانی معمولاً چند ثانیه است، و او اضافه میکند که این زمان قابل مقایسه با عملکرد مترجمان انسانی حرفهای است.
نویسندگان می گویند که سیستم را برای محدود کردن بروز تعصب جنسیتی و "سمیت افزوده شده" تنظیم کرده اند - زمانی که یک ترجمه خودکار شامل زبان توهین آمیزی است که بازتاب دهنده عبارت اصلی نیست. نویسندگان همچنین برای جلوگیری از ترجمه اصطلاحاتی که در یک زبان، مانند «پرستار» در انگلیسی، بدون جنسیت هستند، به همتایان جنسیتی در زبانهای دیگر، کنترلهایی را بر روی سیستم قرار دادند.
کونکه در تفسیر خود می نویسد که برای محدود کردن بیشتر آسیب های احتمالی ترجمه خودکار، "توسعه دهندگان باید در نظر بگیرند که چگونه ترجمه ها را به گونه ای نمایش دهند که محدودیت های یک مدل را آشکار کند" و به این فکر کنند که "در صورت تردید در دقت آن، به طور کلی از خروجی خودداری کنند".
سابین براون، محقق مطالعات ترجمه در دانشگاه ساری در گیلدفورد، انگلستان، می گوید این پروژه "تلاشی بسیار جالب و مهم" است. اما براون اضافه میکند که باید بررسی دقیقتری بر روی ترجمه ماشینی انجام شود و همچنین آموزشهایی در مورد نحوه استفاده از آن قبل از اینکه به طور گسترده، بهویژه توسط افرادی در مشاغل مهم مانند مشاغل پزشکی یا حقوقی، اتخاذ شود، ارائه شود. او می گوید: "من می خواهم بحث بیشتری در مورد چگونگی ارزیابی این سیستم ها ببینم."