در تلاشی برای محافظت از داراییهای ارزشمند خود، OpenAI اکنون برای توسعهدهندگانی که میخواهند به پیشرفتهترین مدلهای هوش مصنوعی آن دسترسی داشته باشند، تأیید هویت با شناسه دولتی (کارت ملی) را الزامی کرده است.
در حالی که این اقدام رسماً در مورد جلوگیری از سوء استفاده است، نگرانی عمیقتری در حال ظهور است: اینکه خروجیهای خود OpenAI برای آموزش سیستمهای هوش مصنوعی رقیب جمعآوری میشوند.
یک مقاله تحقیقاتی جدید از Copyleaks، شرکتی که در زمینه تشخیص محتوای هوش مصنوعی تخصص دارد، شواهدی را ارائه میدهد که نشان میدهد چرا OpenAI ممکن است اکنون اقدام کند. Copyleaks با استفاده از سیستمی که "اثر انگشت" سبکی مدلهای اصلی هوش مصنوعی را شناسایی میکند، تخمین زد که 74٪ از خروجیهای مدل چینی رقیب، DeepSeek-R1، به عنوان نوشته شده توسط OpenAI طبقهبندی شدهاند.
این فقط نشاندهنده همپوشانی نیست - بلکه به معنای تقلید است.
دستهبندیکننده Copyleaks همچنین روی مدلهای دیگر از جمله phi-4 مایکروسافت و Grok-1 ایلان ماسک آزمایش شد. این مدلها تقریباً شباهت صفری با OpenAI داشتند - 99.3٪ و 100٪ به ترتیب "عدم توافق" - که نشاندهنده آموزش مستقل است. مدل Mixtral Mistral شباهتهایی دارد، اما اعداد DeepSeek به طرز چشمگیری برجسته بود.
این تحقیق تأکید میکند که چگونه حتی زمانی که از مدلها خواسته میشود با لحن یا قالبهای مختلف بنویسند، باز هم امضاهای سبکی قابل شناسایی - مانند اثر انگشت زبانی - از خود به جای میگذارند. این اثر انگشتها در سراسر وظایف، موضوعات و دستورات پابرجا هستند و اکنون میتوان با دقت مشخصی منشاء آنها را ردیابی کرد. این امر پیامدهای بسیار زیادی برای تشخیص استفاده غیرمجاز از مدل، اجرای توافقنامههای صدور مجوز و محافظت از مالکیت معنوی دارد.
OpenAI به درخواستها برای اظهار نظر پاسخ نداد. اما این شرکت در مورد برخی از دلایلی که فرآیند تأیید جدید را معرفی کرده است، صحبت کرد. این شرکت در هنگام اعلام این تغییر اخیراً نوشت: «متأسفانه، اقلیت کوچکی از توسعهدهندگان عمداً از APIهای OpenAI در نقض سیاستهای استفاده ما استفاده میکنند.»
OpenAI میگوید DeepSeek ممکن است مدلهای آن را «به طور نامناسب تقطیر کرده باشد»
در اوایل سال جاری، درست پس از اینکه DeepSeek جامعه هوش مصنوعی را تحت تأثیر قرار داد با مدلهای استدلالی که از نظر عملکرد مشابه با پیشنهادات OpenAI بودند، این استارتآپ آمریکایی حتی واضحتر بود: "ما از نشانههایی آگاه هستیم و در حال بررسی آنها هستیم که DeepSeek ممکن است مدلهای ما را به طور نامناسب تقطیر کرده باشد."
تقطیر فرآیندی است که در آن توسعهدهندگان مدلهای جدید را با استفاده از خروجیهای سایر مدلهای موجود آموزش میدهند. در حالی که چنین تکنیکی در تحقیقات هوش مصنوعی رایج است، انجام این کار بدون اجازه میتواند شرایط خدمات OpenAI را نقض کند.
مقاله تحقیقاتی DeepSeek در مورد مدل جدید R1 خود، استفاده از تقطیر را با مدلهای منبع باز توصیف میکند، اما به OpenAI اشاره نمیکند. من در اوایل سال جاری از DeepSeek در مورد این اتهامات تقلید پرسیدم و پاسخی دریافت نکردم.
منتقدان اشاره میکنند که OpenAI خود مدلهای اولیه خود را با خراش دادن وب، از جمله محتوا از ناشران خبری، نویسندگان و سازندگان - اغلب بدون رضایت - ساخته است. بنابراین آیا برای OpenAI ریاکارانه است که شکایت کند وقتی دیگران از خروجیهای آن به روشی مشابه استفاده میکنند؟
آلون یامین، مدیر عامل Copyleaks، گفت: "این واقعاً به رضایت و شفافیت مربوط میشود."
آموزش بر روی محتوای انسانی دارای حق نسخهبرداری بدون اجازه یک نوع مسئله است. اما استفاده از خروجیهای سیستمهای هوش مصنوعی اختصاصی برای آموزش مدلهای رقیب، مسئله دیگری است - این بیشتر شبیه مهندسی معکوس محصول شخص دیگری است، او توضیح داد.
یامین استدلال میکند که در حالی که هر دو عمل از نظر اخلاقی بحثبرانگیز هستند، آموزش بر روی خروجیهای OpenAI خطرات رقابتی را افزایش میدهد، زیرا اساساً نوآوریهای سخت به دست آمده را بدون اطلاع یا جبران توسعهدهنده اصلی منتقل میکند.
همانطور که شرکتهای هوش مصنوعی برای ساخت مدلهای توانمندتر از همیشه رقابت میکنند، این بحث بر سر اینکه چه کسی مالک چیست - و چه کسی میتواند روی چه کسی آموزش ببیند - در حال تشدید شدن است. ابزارهایی مانند سیستم اثر انگشت دیجیتال Copyleaks راهی بالقوه برای ردیابی و تأیید نویسندگی در سطح مدل ارائه میدهند. برای OpenAI و رقبای آن، این ممکن است هم یک موهبت و هم یک هشدار باشد.