سام آلتمنِ OpenAI دسترسی توسعه‌دهندگان به مدل‌های خود را محدودتر می‌کند. JOEL SAGET/AFP از طریق Getty Images
سام آلتمنِ OpenAI دسترسی توسعه‌دهندگان به مدل‌های خود را محدودتر می‌کند. JOEL SAGET/AFP از طریق Getty Images

اقدام اخیر OpenAI تقلید از تکالیفش را برای رقبایی مانند DeepSeek دشوارتر می‌کند

تحلیل توسط آلیستر بار

در تلاشی برای محافظت از دارایی‌های ارزشمند خود، OpenAI اکنون برای توسعه‌دهندگانی که می‌خواهند به پیشرفته‌ترین مدل‌های هوش مصنوعی آن دسترسی داشته باشند، تأیید هویت با شناسه دولتی (کارت ملی) را الزامی کرده است.

در حالی که این اقدام رسماً در مورد جلوگیری از سوء استفاده است، نگرانی عمیق‌تری در حال ظهور است: اینکه خروجی‌های خود OpenAI برای آموزش سیستم‌های هوش مصنوعی رقیب جمع‌آوری می‌شوند.

یک مقاله تحقیقاتی جدید از Copyleaks، شرکتی که در زمینه تشخیص محتوای هوش مصنوعی تخصص دارد، شواهدی را ارائه می‌دهد که نشان می‌دهد چرا OpenAI ممکن است اکنون اقدام کند. Copyleaks با استفاده از سیستمی که "اثر انگشت" سبکی مدل‌های اصلی هوش مصنوعی را شناسایی می‌کند، تخمین زد که 74٪ از خروجی‌های مدل چینی رقیب، DeepSeek-R1، به عنوان نوشته شده توسط OpenAI طبقه‌بندی شده‌اند.

این فقط نشان‌دهنده همپوشانی نیست - بلکه به معنای تقلید است.

دسته‌بندی‌کننده Copyleaks همچنین روی مدل‌های دیگر از جمله phi-4 مایکروسافت و Grok-1 ایلان ماسک آزمایش شد. این مدل‌ها تقریباً شباهت صفری با OpenAI داشتند - 99.3٪ و 100٪ به ترتیب "عدم توافق" - که نشان‌دهنده آموزش مستقل است. مدل Mixtral Mistral شباهت‌هایی دارد، اما اعداد DeepSeek به طرز چشمگیری برجسته بود.

نمودار
نموداری که شباهت‌های "اثر انگشت" سبکی را با مدل‌های OpenAI نشان می‌دهد. تحقیقات Copyleaks

این تحقیق تأکید می‌کند که چگونه حتی زمانی که از مدل‌ها خواسته می‌شود با لحن یا قالب‌های مختلف بنویسند، باز هم امضاهای سبکی قابل شناسایی - مانند اثر انگشت زبانی - از خود به جای می‌گذارند. این اثر انگشت‌ها در سراسر وظایف، موضوعات و دستورات پابرجا هستند و اکنون می‌توان با دقت مشخصی منشاء آنها را ردیابی کرد. این امر پیامدهای بسیار زیادی برای تشخیص استفاده غیرمجاز از مدل، اجرای توافق‌نامه‌های صدور مجوز و محافظت از مالکیت معنوی دارد.

OpenAI به درخواست‌ها برای اظهار نظر پاسخ نداد. اما این شرکت در مورد برخی از دلایلی که فرآیند تأیید جدید را معرفی کرده است، صحبت کرد. این شرکت در هنگام اعلام این تغییر اخیراً نوشت: «متأسفانه، اقلیت کوچکی از توسعه‌دهندگان عمداً از APIهای OpenAI در نقض سیاست‌های استفاده ما استفاده می‌کنند.»

OpenAI می‌گوید DeepSeek ممکن است مدل‌های آن را «به طور نامناسب تقطیر کرده باشد»

در اوایل سال جاری، درست پس از اینکه DeepSeek جامعه هوش مصنوعی را تحت تأثیر قرار داد با مدل‌های استدلالی که از نظر عملکرد مشابه با پیشنهادات OpenAI بودند، این استارت‌آپ آمریکایی حتی واضح‌تر بود: "ما از نشانه‌هایی آگاه هستیم و در حال بررسی آنها هستیم که DeepSeek ممکن است مدل‌های ما را به طور نامناسب تقطیر کرده باشد."

تقطیر فرآیندی است که در آن توسعه‌دهندگان مدل‌های جدید را با استفاده از خروجی‌های سایر مدل‌های موجود آموزش می‌دهند. در حالی که چنین تکنیکی در تحقیقات هوش مصنوعی رایج است، انجام این کار بدون اجازه می‌تواند شرایط خدمات OpenAI را نقض کند.

مقاله تحقیقاتی DeepSeek در مورد مدل جدید R1 خود، استفاده از تقطیر را با مدل‌های منبع باز توصیف می‌کند، اما به OpenAI اشاره نمی‌کند. من در اوایل سال جاری از DeepSeek در مورد این اتهامات تقلید پرسیدم و پاسخی دریافت نکردم.

منتقدان اشاره می‌کنند که OpenAI خود مدل‌های اولیه خود را با خراش دادن وب، از جمله محتوا از ناشران خبری، نویسندگان و سازندگان - اغلب بدون رضایت - ساخته است. بنابراین آیا برای OpenAI ریاکارانه است که شکایت کند وقتی دیگران از خروجی‌های آن به روشی مشابه استفاده می‌کنند؟

آلون یامین، مدیر عامل Copyleaks، گفت: "این واقعاً به رضایت و شفافیت مربوط می‌شود."

آموزش بر روی محتوای انسانی دارای حق نسخه‌برداری بدون اجازه یک نوع مسئله است. اما استفاده از خروجی‌های سیستم‌های هوش مصنوعی اختصاصی برای آموزش مدل‌های رقیب، مسئله دیگری است - این بیشتر شبیه مهندسی معکوس محصول شخص دیگری است، او توضیح داد.

یامین استدلال می‌کند که در حالی که هر دو عمل از نظر اخلاقی بحث‌برانگیز هستند، آموزش بر روی خروجی‌های OpenAI خطرات رقابتی را افزایش می‌دهد، زیرا اساساً نوآوری‌های سخت به دست آمده را بدون اطلاع یا جبران توسعه‌دهنده اصلی منتقل می‌کند.

همانطور که شرکت‌های هوش مصنوعی برای ساخت مدل‌های توانمندتر از همیشه رقابت می‌کنند، این بحث بر سر اینکه چه کسی مالک چیست - و چه کسی می‌تواند روی چه کسی آموزش ببیند - در حال تشدید شدن است. ابزارهایی مانند سیستم اثر انگشت دیجیتال Copyleaks راهی بالقوه برای ردیابی و تأیید نویسندگی در سطح مدل ارائه می‌دهند. برای OpenAI و رقبای آن، این ممکن است هم یک موهبت و هم یک هشدار باشد.