مارک زاکربرگ در حال توسعه قابلیتهای صوتی هوش مصنوعی متا در سال جاری است، زیرا این غول رسانههای اجتماعی با برنامههایی برای کسب درآمد از این فناوری به سرعت در حال توسعه، به پیش میرود.
متا قصد دارد ویژگیهای صوتی بهبود یافتهای را در آخرین مدل زبان بزرگ متنباز خود، Llama 4، که در هفتههای آینده انتظار میرود، معرفی کند. این شرکت شرط میبندد که عوامل مجهز به هوش مصنوعی آینده بیشتر مکالمهمحور باشند تا متنمحور.
به گفته یک منبع، این شرکت به ویژه بر روی نزدیکتر کردن مکالمه بین کاربر و مدل صوتی خود به یک گفتگوی طبیعی دو طرفه متمرکز بوده است، که امکان وقفه از طرف کاربر را به جای یک قالب سفت و سخت پرسش و پاسخ فراهم میکند.
تلاش برای توسعه صدا در حالی صورت میگیرد که زاکربرگ، مدیرعامل، برنامههای جسورانهای را برای تبدیل کردن شرکت ۱.۷ تریلیون دلاری سیلیکونولی به «رهبر هوش مصنوعی» ترسیم کرده است و سال ۲۰۲۵ را سالی تعیینکننده برای بسیاری از محصولات هوش مصنوعی خود میداند، زیرا این گروه با رقبایی مانند OpenAI، Microsoft و Google برای تجاریسازی این فناوری رقابت میکند.
به گفته دو منبع آگاه، این امر باعث شده است که این شرکت به دنبال آزمایش اشتراکهای پریمیوم برای دستیار هوش مصنوعی خود، Meta AI، برای وظایف عاملی مانند رزرو و ایجاد ویدیو باشد. یکی از این افراد گفت که این شرکت همچنین در حال بررسی معرفی تبلیغات پولی یا پستهای حمایت شده در نتایج جستجوی دستیار هوش مصنوعی خود است.
زاکربرگ امسال برنامههایی را برای ساخت یک عامل مهندسی هوش مصنوعی که دارای تواناییهای کدنویسی و حل مسئله یک مهندس سطح متوسط باشد، فاش کرد که به گفته وی دارای یک "بازار بسیار بزرگ" بالقوه است.
متا از اظهار نظر خودداری کرد.
کریس کاکس، مدیر ارشد تولید این گروه، روز چهارشنبه برخی از برنامههای خود را برای Llama 4 برجسته کرد و گفت که این یک "مدل همهکاره" خواهد بود که در آن گفتار "به طور طبیعی وجود خواهد داشت... به جای ترجمه صدا به متن، ارسال متن به LLM، دریافت متن و تبدیل مجدد آن به گفتار".
او در کنفرانس فناوری، رسانه و مخابرات مورگان استنلی گفت: "من معتقدم که این یک معامله بزرگ برای محصول رابط کاربری است، این ایده که شما میتوانید با اینترنت صحبت کنید و فقط هر چیزی را از آن بپرسید. فکر میکنم هنوز در حال جمعبندی ذهن خود در مورد این هستیم که چقدر قدرتمند است."
به گفته دو منبع آگاه، متا همچنین در حال بحث در مورد محافظهایی است که جدیدترین مدل Llama باید در مورد خروجی خود داشته باشد و اینکه آیا آنها را کاهش دهد یا خیر.
این بحثها در میان هیاهوی راهاندازی محصولات از سوی رقبا و هشدارهای "تزار هوش مصنوعی" تازه منصوب شده، دیوید ساکس، یک سرمایهدار خطرپذیر در سیلیکونولی، که گفته است میخواهد اطمینان حاصل کند که مدلهای هوش مصنوعی ایالات متحده از نظر سیاسی مغرضانه یا "woke" نیستند، مطرح میشود.
OpenAI سال گذشته حالت صوتی خود را منتشر کرد و بر ارائه شخصیتهای متمایز به آن متمرکز شده است، در حالی که Grok 3، که توسط xAI ایلان ماسک ایجاد شده و در پلتفرم X در دسترس است، ویژگیهای صوتی خود را برای کاربران منتخب در اواخر ماه گذشته عرضه کرد.
طبق گفته این شرکت، مدل Grok به طور خاص برای داشتن محافظهای کمتری طراحی شده است، از جمله یک "حالت افسارگسیخته" که عمداً به گونهای پاسخ میدهد که "اعتراضآمیز، نامناسب و توهینآمیز" باشد.
متا سال گذشته نسخه کمتر "ریاکارانه" مدل هوش مصنوعی خود را برای سومین تکرار Llama خود، پس از انتقاد از اینکه Llama 2 از پاسخ دادن به سوالات بیگناه خودداری میکرد، رونمایی کرد.
اجازه دادن به کاربران برای تعامل با یک دستیار هوش مصنوعی با استفاده از دستورات صوتی، یکی از ویژگیهای اصلی عینکهای هوشمند Ray Bans متا است که اخیراً در بین مصرفکنندگان به یک موفقیت بزرگ تبدیل شده است. این گروه برنامههای خود را تسریع کرده است تا هدستهای سبک وزنی بسازد که بتوانند تلفن هوشمند را به عنوان دستگاه اصلی محاسباتی مصرفکنندگان کنار بزنند.
گزارش اضافی توسط ملیسا هیکیلا در لندن