متا شتاب‌دهی به توسعه هوش مصنوعی مبتنی بر صدا را افزایش می‌دهد

مارک زاکربرگ در حال توسعه قابلیت‌های صوتی هوش مصنوعی متا در سال جاری است، زیرا این غول رسانه‌های اجتماعی با برنامه‌هایی برای کسب درآمد از این فناوری به سرعت در حال توسعه، به پیش می‌رود.

متا قصد دارد ویژگی‌های صوتی بهبود یافته‌ای را در آخرین مدل زبان بزرگ متن‌باز خود، Llama 4، که در هفته‌های آینده انتظار می‌رود، معرفی کند. این شرکت شرط می‌بندد که عوامل مجهز به هوش مصنوعی آینده بیشتر مکالمه‌محور باشند تا متن‌محور.

به گفته یک منبع، این شرکت به ویژه بر روی نزدیک‌تر کردن مکالمه بین کاربر و مدل صوتی خود به یک گفتگوی طبیعی دو طرفه متمرکز بوده است، که امکان وقفه از طرف کاربر را به جای یک قالب سفت و سخت پرسش و پاسخ فراهم می‌کند.

تلاش برای توسعه صدا در حالی صورت می‌گیرد که زاکربرگ، مدیرعامل، برنامه‌های جسورانه‌ای را برای تبدیل کردن شرکت ۱.۷ تریلیون دلاری سیلیکون‌ولی به «رهبر هوش مصنوعی» ترسیم کرده است و سال ۲۰۲۵ را سالی تعیین‌کننده برای بسیاری از محصولات هوش مصنوعی خود می‌داند، زیرا این گروه با رقبایی مانند OpenAI، Microsoft و Google برای تجاری‌سازی این فناوری رقابت می‌کند.

به گفته دو منبع آگاه، این امر باعث شده است که این شرکت به دنبال آزمایش اشتراک‌های پریمیوم برای دستیار هوش مصنوعی خود، Meta AI، برای وظایف عاملی مانند رزرو و ایجاد ویدیو باشد. یکی از این افراد گفت که این شرکت همچنین در حال بررسی معرفی تبلیغات پولی یا پست‌های حمایت شده در نتایج جستجوی دستیار هوش مصنوعی خود است.

زاکربرگ امسال برنامه‌هایی را برای ساخت یک عامل مهندسی هوش مصنوعی که دارای توانایی‌های کدنویسی و حل مسئله یک مهندس سطح متوسط باشد، فاش کرد که به گفته وی دارای یک "بازار بسیار بزرگ" بالقوه است.

متا از اظهار نظر خودداری کرد.

کریس کاکس، مدیر ارشد تولید این گروه، روز چهارشنبه برخی از برنامه‌های خود را برای Llama 4 برجسته کرد و گفت که این یک "مدل همه‌کاره" خواهد بود که در آن گفتار "به طور طبیعی وجود خواهد داشت... به جای ترجمه صدا به متن، ارسال متن به LLM، دریافت متن و تبدیل مجدد آن به گفتار".

او در کنفرانس فناوری، رسانه و مخابرات مورگان استنلی گفت: "من معتقدم که این یک معامله بزرگ برای محصول رابط کاربری است، این ایده که شما می‌توانید با اینترنت صحبت کنید و فقط هر چیزی را از آن بپرسید. فکر می‌کنم هنوز در حال جمع‌بندی ذهن خود در مورد این هستیم که چقدر قدرتمند است."

به گفته دو منبع آگاه، متا همچنین در حال بحث در مورد محافظ‌هایی است که جدیدترین مدل Llama باید در مورد خروجی خود داشته باشد و اینکه آیا آنها را کاهش دهد یا خیر.

این بحث‌ها در میان هیاهوی راه‌اندازی محصولات از سوی رقبا و هشدارهای "تزار هوش مصنوعی" تازه منصوب شده، دیوید ساکس، یک سرمایه‌دار خطرپذیر در سیلیکون‌ولی، که گفته است می‌خواهد اطمینان حاصل کند که مدل‌های هوش مصنوعی ایالات متحده از نظر سیاسی مغرضانه یا "woke" نیستند، مطرح می‌شود.

OpenAI سال گذشته حالت صوتی خود را منتشر کرد و بر ارائه شخصیت‌های متمایز به آن متمرکز شده است، در حالی که Grok 3، که توسط xAI ایلان ماسک ایجاد شده و در پلتفرم X در دسترس است، ویژگی‌های صوتی خود را برای کاربران منتخب در اواخر ماه گذشته عرضه کرد.

طبق گفته این شرکت، مدل Grok به طور خاص برای داشتن محافظ‌های کمتری طراحی شده است، از جمله یک "حالت افسارگسیخته" که عمداً به گونه‌ای پاسخ می‌دهد که "اعتراض‌آمیز، نامناسب و توهین‌آمیز" باشد.

متا سال گذشته نسخه کمتر "ریاکارانه" مدل هوش مصنوعی خود را برای سومین تکرار Llama خود، پس از انتقاد از اینکه Llama 2 از پاسخ دادن به سوالات بی‌گناه خودداری می‌کرد، رونمایی کرد.

اجازه دادن به کاربران برای تعامل با یک دستیار هوش مصنوعی با استفاده از دستورات صوتی، یکی از ویژگی‌های اصلی عینک‌های هوشمند Ray Bans متا است که اخیراً در بین مصرف‌کنندگان به یک موفقیت بزرگ تبدیل شده است. این گروه برنامه‌های خود را تسریع کرده است تا هدست‌های سبک وزنی بسازد که بتوانند تلفن هوشمند را به عنوان دستگاه اصلی محاسباتی مصرف‌کنندگان کنار بزنند.

گزارش اضافی توسط ملیسا هیکیلا در لندن

https://www.ft.com/content/a1014427-c2ce-4204-b41a-001277309cea