محققان FIU فاش کردند: چگونه اختلالات در سطح پیکسل از موانع ایمنی هوش مصنوعی عبور می‌کنند

بر اساس تحقیقات جدید دانشگاه بین‌المللی فلوریدا (FIU)، تغییرات میکروسکوپی در سطح پیکسل، که برای چشم انسان نامحسوس هستند، برای دور زدن محافظ‌های ایمنی برخی از سیستم‌های هوش مصنوعی کافی است. محققان هادی امینی، دانشیار دانشکده علوم کامپیوتر و اطلاعات بنیاد نایت FIU، و دستیار فارغ‌التحصیل، محمد جوال میا، کشف کردند که یک تصویر تغییریافته، حتی تصویر یک خرس پاندا، می‌تواند هوش مصنوعی را فریب دهد تا خروجی‌های مضر یا مغایر با سیاست‌ها تولید کند. همانطور که در کنفرانس بین‌المللی یادگیری ماشین و کاربردها ارائه شد، یافته‌های تیم نشان می‌دهد که مدل‌های هوش مصنوعی «تصاویر را مانند انسان‌ها نمی‌بینند»، امینی توضیح می‌دهد، بلکه آنها را به عنوان الگوهایی از اعداد و پیکسل‌ها تفسیر می‌کنند. امینی گفت: «به منظور محافظت از سیستم‌های هوش مصنوعی در برابر حملات، ما خودمان سعی می‌کنیم آنها را بشکنیم، آسیب‌پذیری‌های بالقوه را شناسایی کنیم و مکانیزم‌های دفاعی طراحی کنیم.» او کار خود را تلاشی پیشگیرانه برای تقویت امنیت آینده هوش مصنوعی عنوان کرد.

اختلالات در سطح پیکسل، موانع ایمنی هوش مصنوعی را دور می‌زنند

این تحقیق بر بهره‌برداری از نحوه پردازش اطلاعات بصری توسط سیستم‌های هوش مصنوعی در سطح بنیادی تمرکز دارد، نه بر ایجاد حملات خصمانه پیچیده. برای دستیابی به این هدف، آنها الگوریتم JaiLIP (جیل‌بریک کردن با اختلال تصویر هدایت‌شده توسط تلفات) را توسعه دادند، الگوریتمی که برای تعیین درجه بهینه دستکاری در سطح پیکسل مورد نیاز برای دور زدن محافظ‌های هوش مصنوعی طراحی شده است. آزمایش JaiLIP بر روی BLIP-2، یک مدل هوش مصنوعی چندوجهی، افزایش قابل توجهی در احتمال تولید پاسخ‌های مضر یا ناامن توسط سیستم را هنگام مواجهه با تصاویر تغییریافته نشان داد. به عنوان مثال، یک تصویر تغییریافته از چراغ راهنمایی توسط JaiLIP با موفقیت مدل هوش مصنوعی را فریب داد تا دستورالعمل‌های دقیقی در مورد چگونگی نادیده گرفتن سیگنال‌های ترافیکی بدون متحمل شدن جریمه ارائه دهد.

محققان دریافتند که استفاده از تصاویر تولید شده توسط JaiLIP تقریباً دو برابر تعداد پاسخ‌های مضر تولید شده توسط مدل‌های هوش مصنوعی آزمایش‌شده را افزایش می‌دهد و خطر را فراتر از درخواست‌های ساده برای فعالیت‌های غیرقانونی گسترش می‌دهد. امینی تأکید می‌کند که مشاغل کوچک و شرکت‌هایی که از هوش مصنوعی استفاده می‌کنند باید از این آسیب‌پذیری‌های بالقوه آگاه باشند و اولویت را به استقرار محافظ‌های کافی برای تضمین ایمنی و یکپارچگی ابزارهای هوش مصنوعی خود بدهند؛ چالش اصلی در اطمینان از این است که هوش مصنوعی می‌تواند تهدیدات پنهان در دید آشکار را، حتی زمانی که انسان نمی‌تواند، تشخیص دهد.

افزایش نرخ پاسخ‌های مضر هوش مصنوعی توسط الگوریتم JaiLIP

محققان دانشگاه بین‌المللی فلوریدا به طور فعال در حال بررسی دفاعیات سیستم‌های هوش مصنوعی هستند و استراتژی خلاف عرف بهره‌برداری عمدی را برای تقویت امنیت آینده به کار می‌گیرند. این رویکرد بر شناسایی آسیب‌پذیری‌ها قبل از اینکه عوامل مخرب بتوانند از آنها سوءاستفاده کنند، متمرکز است. کار این تیم نشان می‌دهد که حتی تغییرات میکروسکوپی در سطح پیکسل برای دور زدن این محافظ‌ها کافی است و شکنندگی اقدامات امنیتی فعلی هوش مصنوعی را برجسته می‌کند. امینی بر لزوم اقدامات امنیتی پیشگیرانه تأکید می‌کند و توصیه می‌کند که ورودی داده‌های حساس را محدود کرده، دسترسی به سیستم را مقید سازید و ویژگی‌های امنیتی داخلی را قبل از استقرار ابزارهای هوش مصنوعی به طور کامل ارزیابی کنید.

https://quantumzeitgeist.com/florida-international-university-ai-unsafe-responses