تصویری متحرک از نت‌های موسیقی که به داخل یک گرداب مکیده می‌شوند.
تصویری متحرک از نت‌های موسیقی که به داخل یک گرداب مکیده می‌شوند.

موسیقی هوش مصنوعی: نقض حق تکثیر و چالش‌های داده‌های آموزشی

نوامبر گذشته، یک زوج اسکیت‌باز نمایشی المپیکی در مسابقه‌ای با آهنگی اجرا کردند که اشعارش به طرز عجیبی آشنا به نظر می‌رسید. خواننده با این جمله شروع کرد: «هر شب یک مرسدس‌بنز را له می‌کنیم.» این یکی از چندین خط قابل تشخیص از آهنگ موفق پاپ «You Get What You Give» اثر New Radicals از سال ۱۹۹۸ بود. اما آهنگ این زوج اسکیت‌باز در سایر قسمت‌ها متفاوت بود. پیام New Radicals به نوجوانان مضطرب به راک آرنا به سبک Bon Jovi تبدیل شده بود. اگر «You Get What You Give» را می‌شناختید، این یک تغییر بسیار عجیب از آن بود.

این اسکیت‌بازان از موسیقی تولید شده توسط هوش مصنوعی استفاده کرده بودند. هر مدلی که درگیر بود، احتمالاً بر روی «You Get What You Give» آموزش دیده و برخی از محتوای آهنگ را کپی کرده بود، همانطور که سیستم‌های هوش مصنوعی مستعد انجام آن هستند. چنین سیستم‌هایی همیشه عناصر آهنگ‌های موجود را به این شیوه بازتولید نمی‌کنند، اما گاهی اوقات و حتی آشکارتر آن را خواهید شنید. به عنوان مثال، Suno، یکی از محبوب‌ترین تولیدکنندگان موسیقی هوش مصنوعی، آهنگ‌هایی منتشر کرده است که به شدت شبیه به «Thriller» مایکل جکسون، «Shape of You» اد شیران، «Johnny B. Goode» چاک بری، «Rock Around the Clock» بیل هیلی و کومت‌ها، «The Thrill Is Gone» بی.بی.کینگ و دیگران هستند. آهنگ مایکل جکسون را در کنار آهنگی با عنوان «Thriller» که توسط Suno تولید شده است، گوش کنید:

(«Thriller» تنها یکی از ده‌ها نمونه‌ای است که شرکت‌های بزرگ ضبط در شکایت علیه Suno ارائه کرده‌اند. می‌توانید دو نمونه دیگر را در ادامه بشنوید. ریچل راسن، سخنگوی Suno، به من گفت که این پلتفرم از «موانع حفاظتی برای جلوگیری از توزیع، جعل هویت و دستکاری‌های غیرمجاز» استفاده می‌کند و مرا به پست لینکدین مدیر ارشد محصولات این شرکت ارجاع داد که می‌گوید بازتولید داده‌های آموزشی «نباید اتفاق بیفتد.» راسن به سوالات مربوط به دعوای حقوقی پاسخ نداد و هیچ آهنگی خاصی را که برای آموزش مدل‌هایشان استفاده شده بود، تأیید نکرد.)

این موارد نشان‌دهنده نحوه کار محصولات موسیقی مبتنی بر هوش مصنوعی است. تولیدکنندگان موسیقی هوش مصنوعی می‌توانند با دقت شگفت‌انگیزی اجراهای انسانی را شبیه‌سازی کنند، اما ابتدا باید بر روی مقادیر عظیمی از همان اجراهای انسانی آموزش ببینند. ضبط‌های واقعی که وارد هر مدلی می‌شوند یک راز کاملاً محافظت شده هستند — شرکت‌های هوش مصنوعی ادعا کرده‌اند که آن‌ها متعلق به خودشان هستند — اما تعداد آهنگ‌ها تقریباً قطعاً بسیار زیاد است و ژانرها و دوره‌های زمانی مختلف را در بر می‌گیرد.

به عنوان بخشی از مجموعه تحقیقات من در مورد داده‌های آموزشی هوش مصنوعی، اخیراً چهار مجموعه داده غول‌پیکر از آهنگ‌ها را کشف کردم که در جامعه توسعه‌دهندگان هوش مصنوعی به اشتراک گذاشته می‌شوند. یکی دارای ۱۲ میلیون آهنگ است. دیگری دارای ۹ میلیون. دو مجموعه داده کوچکتر هر کدام بیش از ۱۰۰,۰۰۰ آهنگ دارند. آن‌ها شامل آهنگ‌های موفق از هنرمندان بزرگ پاپ مانند Bad Bunny، Nirvana، Taylor Swift، Billie Eilish، Pearl Jam، Elvis Costello، Sheryl Crow و The Beatles هستند. (آهنگ «You Get What You Give» از New Radicals در دو مورد از این مجموعه‌های داده قرار دارد.) هنرمندان جاز مانند Miles Davis، John Zorn و Vijay Iyer نیز حضور دارند، همچنین آهنگسازان کلاسیک و ده‌ها هزار هنرمند کمتر شناخته شده در ژانرهای مختلف. مجموعه داده ۱۲ میلیون آهنگی، به تنهایی، ۹۱ سال زمان می‌برد تا به آن گوش داده شود.

می‌توانید هنرمندی را در مجموعه‌های داده اینجا جستجو کنید:

این مجموعه‌های داده تنها چهار نمونه از منابع بسیاری هستند که در دسترس توسعه‌دهندگان هوش مصنوعی قرار دارند. من آن‌ها را با خواندن مقالات تحقیقاتی منتشر شده توسط توسعه‌دهندگان و جستجو در سایت‌های اشتراک داده هوش مصنوعی پیدا کردم. این مجموعه‌های داده هزاران بار دانلود شده‌اند. گوگل در مورد استفاده از یکی از آن‌ها — بیش از ۱۰۰,۰۰۰ آهنگ دانلود شده از Free Music Archive، سایتی که امکان پخش رایگان برای گوش دادن شخصی را فراهم می‌کند اما برای استفاده تجاری نیاز به پرداخت دارد — برای آموزش مدل‌های هوش مصنوعی نوشته است، و Stability نیز از برخی آهنگ‌های همین مجموعه داده استفاده کرده است. اما به دلیل پنهان‌کاری صنعت در مورد داده‌های آموزشی، ما در حال حاضر نمی‌دانیم چه کسی از بقیه استفاده کرده است.

آنچه این مجموعه‌های داده در درجه اول نشان می‌دهند، مقیاس و تنوع موسیقی‌هایی است که به راحتی در دسترس توسعه‌دهندگان هوش مصنوعی قرار دارند. شرکت‌ها اغلب ادعا می‌کنند که فقط از محتوای آزادانه در دسترس آنلاین استفاده می‌کنند، اما این مجموعه‌های داده، کمیت موسیقی‌های قابل دانلود را نشان می‌دهند که توسعه‌دهندگان می‌توانند به آن‌ها دسترسی داشته باشند، حتی اگر قرار نباشد رایگان باشند.

سه مورد از مجموعه‌های داده‌ای که من پیدا کردم به صورت فهرستی از لینک‌ها به آهنگ‌ها در YouTube یا Spotify توزیع شده‌اند. توسعه‌دهندگان هوش مصنوعی فایل صوتی واقعی را با استفاده از ابزارهایی که کار را خودکار می‌کنند، دانلود می‌کنند. برخی از این ابزارها به توسعه‌دهندگان اجازه می‌دهند از ورود به سیستم، تبلیغات و مکانیسم‌هایی که می‌توانند برای سازندگان درآمد یا مشترک به همراه داشته باشند، عبور کنند. چنین ابزارهایی شرایط خدمات این پلتفرم‌ها را نقض می‌کنند. (چهارمین مجموعه داده، یعنی مجموعه Free Music Archive، با فایل‌های MP3 توزیع می‌شود.)

این مجموعه‌های داده از نظر اندازه مشابه با آن‌هایی هستند که شرکت‌ها برای آموزش مدل‌های تجاری تولید موسیقی استفاده کرده‌اند. در سال ۲۰۲۲، گوگل مدلی را با ۴۴ میلیون آهنگ، که مجموعاً ۴۲ سال موسیقی می‌شود، آموزش داد. Suno در یک پرونده دادگاهی در سال ۲۰۲۴ نوشت که مدل‌های خود را بر روی «اساساً تمام فایل‌های موسیقی با کیفیت معقول» که می‌توانست از اینترنت دانلود کند، آموزش داده است. در سال ۲۰۲۰، OpenAI ۱.۲ میلیون آهنگ را از وب جمع‌آوری کرد تا مدلی به نام Jukebox را آموزش دهد که صراحتاً برای تولید تغییرات در موسیقی موجود طراحی شده بود.

به طور کلی، شرکت‌های هوش مصنوعی حق خود را برای آموزش مدل‌ها بر روی موسیقی بدون مجوز با این استدلال دفاع می‌کنند که این آموزش «استفاده منصفانه» تحت قانون حق تکثیر است، به این معنی که مدل‌های هوش مصنوعی به بازار کار هنرمندان آسیب نمی‌رسانند. این ادعایی پیچیده است و مشروعیت آن احتمالاً به جزئیات نحوه آموزش و استقرار یک سیستم هوش مصنوعی بستگی دارد. Suno از اظهار نظر در مورد استدلال‌های قانونی خود خودداری کرد. متین پارلاک، سخنگوی OpenAI، به من گفت که این شرکت «همیشه در مورد نحوه آموزش Jukebox شفاف بوده است.» (این شرکت رویه خود را برای آموزش مدل منتشر کرد، اگرچه لیست آهنگ‌ها را ذکر نکرد.) گوگل نیز از اظهار نظر برای این مقاله خودداری کرد، اما مرا به یک پست وبلاگ ارجاع داد که در آن می‌گوید مدل‌های تولید صدای خود را بر روی «مطالبی که YouTube و Google بر اساس شرایط خدمات، قراردادهای شریک و قوانین قابل اجرا حق استفاده از آنها را دارند» آموزش داده است. (YouTube متعلق به گوگل است.)

مدل‌های تولیدکننده موسیقی به روشی مشابه با مدل‌های هوش مصنوعی که متن تولید می‌کنند کار می‌کنند: آن‌ها محتوای آموزشی را به قطعات کوچک (در این مورد، بخش‌های صوتی کوچک به جای متن) تقسیم می‌کنند و در مورد زمینه‌ای که هر قطعه در آن ظاهر می‌شود، «یاد می‌گیرند». سپس، وقتی یک دستور (یک زمینه) داده می‌شود، پیش‌بینی می‌کنند که کدام قطعه بعدی می‌آید. سهولت تولید موسیقی هوش مصنوعی به سرعت آن را فراگیر کرده است. سپتامبر گذشته، اسپاتیفای اعلام کرد که ۷۵ میلیون آهنگ «اسپم» تولید شده توسط هوش مصنوعی را از سرویس خود حذف کرده است. پلتفرم پخش آنلاین دیزر اخیراً گزارش داد که تقریباً نیمی از آهنگ‌هایی که روزانه دریافت می‌کند توسط هوش مصنوعی تولید شده‌اند. برخلاف اسپاتیفای، دیزر آهنگ‌های تولید شده توسط هوش مصنوعی را از توصیه‌های الگوریتمی خود حذف می‌کند و آلبوم‌هایی را که شامل آهنگ‌های هوش مصنوعی هستند برچسب‌گذاری می‌کند، اگرچه برچسبی برای آهنگ‌های جداگانه نمایش نمی‌دهد. اسپاتیفای، یوتیوب یا آمازون موزیک هیچ‌کدام موسیقی تولید شده توسط هوش مصنوعی را در پلتفرم خود برچسب‌گذاری نمی‌کنند.

در میان شرکت‌هایی که محصولات تولید موسیقی هوش مصنوعی را ارائه می‌دهند، گوگل به طور منحصر به فردی برای بهره‌برداری از مخاطبان بزرگ موجود موقعیت دارد. این غول فناوری شروع به جاسازی این فناوری در محصولات خود کرده است: دستیار هوش مصنوعی Gemini گوگل اکنون می‌تواند بر اساس متن، عکس یا ویدیوی آپلود شده توسط کاربر، قطعات موسیقی ۳۰ ثانیه‌ای تولید کند. و این شرکت سازندگان ویدیو در YouTube را تشویق می‌کند تا از آهنگ‌های پس‌زمینه تولید شده توسط هوش مصنوعی استفاده کنند، به جای مجوز گرفتن از موسیقیدانان واقعی. برای یوتیوبرهایی که به دلیل استفاده نامناسب از موسیقی دارای حق تکثیر به مشکل خورده‌اند، گوگل اخیراً دکمه «جایگزینی آهنگ» را اضافه کرده است که موسیقی ویدیوی آن‌ها را با یک آهنگ تولید شده توسط هوش مصنوعی جایگزین می‌کند.

موسیقی تولید شده توسط هوش مصنوعی مستقیماً در وب‌سایت‌های محصولات هوش مصنوعی نیز مصرف می‌شود. Suno و رقیب آن Udio می‌توانند به عنوان پلتفرم‌های شنیداری بسیار شبیه به Spotify یا YouTube استفاده شوند. این سایت‌ها کاربران را دعوت می‌کنند تا موسیقی مورد نظر خود را توصیف کنند و می‌توانند یک آهنگ را در عرض چند ثانیه تولید کنند. این آهنگ‌ها عمدتاً معمولی هستند، اما می‌توانند به اندازه کافی واقعی به نظر برسند که بسیاری از شنوندگان در تشخیص اینکه آن‌ها توسط هوش مصنوعی تولید شده‌اند، مشکل داشته باشند. (Udio به درخواست‌های اظهار نظر پاسخ نداد.)

در تلاش برای جلوگیری از تولید آهنگ‌هایی توسط محصولاتشان که موسیقی‌های موجود را کپی می‌کنند، شرکت‌های هوش مصنوعی نرم‌افزارهای تشخیص را پیاده‌سازی می‌کنند. اما نه Suno و نه Udio مانع از تولید آهنگ‌هایی توسط کاربران به سبک هنرمندان واقعی نمی‌شوند. اوایل امسال، سونی کشف کرد که ۱۳۵,۰۰۰ آهنگ تولید شده توسط هوش مصنوعی به هنرمندانش در پلتفرم‌های مختلف پخش آنلاین نسبت داده شده‌اند. اگرچه دقیقاً مشخص نیست که کدام ابزارهای هوش مصنوعی برای تولید این آهنگ‌ها استفاده شده‌اند، اما این فناوری در حال حاضر به توانایی هنرمندان برای کسب درآمد از موسیقی‌شان آسیب می‌رساند.

موسیقیدانان و شرکت‌های ضبط حداقل ۱۲ شکایت علیه شرکت‌های هوش مصنوعی به دلیل آموزش مدل‌ها بر روی موسیقی دارای حق تکثیر ثبت کرده‌اند. سه شرکت بزرگ ضبط موسیقی این صنعت هم از Suno و هم از Udio شکایت کرده‌اند و دیگران نیز از گوگل، OpenAI و فروشندگان کوچک‌تر هوش مصنوعی شکایت کرده‌اند. هیچ حکمی در این پرونده‌ها صادر نشده است، اما برخی از شرکت‌های ضبط با Suno و Udio به توافق رسیده‌اند.

این دعاوی حقوقی نقض حق تکثیر را ادعا می‌کنند، اما حتی برخی هنرمندانی که انتخاب کرده‌اند موسیقی خود را آزادانه‌تر به اشتراک بگذارند، همچنان به نحوه استفاده شرکت‌های هوش مصنوعی از آثارشان اعتراض دارند. نمونه بارز آن Free Music Archive است. این آرشیو در سال ۲۰۰۹ توسط ایستگاه رادیویی WFMU نیوجرسی راه‌اندازی شد تا همان هدف رادیو – ارائه موسیقی رایگان به شنوندگان – را دنبال کند، اما «برای عصر اینترنت طراحی شده»، همانطور که این آرشیو در وب‌سایت اصلی خود ادعا کرده بود. این آرشیو گنجینه‌ای از ضبط‌های کمیاب، زنده و غیرجریان اصلی است. و راهی برای موسیقیدانان است که به شنوندگان اجازه دهند موسیقی آن‌ها را به صورت رایگان بشنوند، در حالی که معمولاً هر کسی که می‌خواهد از موسیقی پول دربیاورد – مثلاً با استفاده از آن در یک ویدیوی انتفاعی – باید هزینه بپردازد. برخی هنرمندان نیز مشخص می‌کنند که کار آن‌ها را نمی‌توان برای اهداف تجاری استفاده کرد.

در سال ۲۰۲۳، هنگامی که هسل ون اورشوت، رئیس Tribe of Noise، شرکتی که Free Music Archive را اداره می‌کند، متوجه شد که گوگل از FMA برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کند، نامه‌ای فرستاد و خواستار بحث در مورد رضایت و غرامت شد. ون اورشوت پاسخ را به من به عنوان «یک بیانیه‌ بی‌ادبانه» توصیف کرد. در نامه‌ای که ون اورشوت با من به اشتراک گذاشت، گوگل به سیاست حفظ حریم خصوصی خود اشاره می‌کند (که می‌گوید «ما از اطلاعات عمومی در دسترس برای کمک به آموزش مدل‌های هوش مصنوعی گوگل استفاده می‌کنیم») و در ادامه استدلال می‌کند که «ما معتقدیم همه از یک اکوسیستم محتوای پویا بهره‌مند می‌شوند.» این شرکت هرگز مستقیماً به نگرانی‌های Free Music Archive پاسخ نداد.

ون اورشوت، که مقیم آمستردام است، به من گفت که احساس می‌کند هیچ راه عملی برای مبارزه با آن ندارد. او گفت: «برای من پرواز به آمریکا و شروع یک دعوای حقوقی با گوگل» بی‌معنی بود.

برخی موسیقیدانان به دلیل نگرانی در مورد استفاده از آثارشان توسط شرکت‌های هوش مصنوعی علیه خودشان، اشتراک‌گذاری موسیقی خود را به صورت آنلاین متوقف کرده‌اند. بن جردن، یوتیوبری که بیش از ۲۵ سال است به عنوان یک موسیقیدان حرفه‌ای زندگی خود را می‌گذراند، یکی از آن‌هاست. او در ویدیویی در آوریل ۲۰۲۵ توضیح داد که متوجه شده است شرکت‌های فناوری «موسیقی او را بدون رضایتش کپی می‌کنند، سپس موسیقی بدتر با آن تولید می‌کنند که ناخواسته با نام او مرتبط است و سپس تلاش می‌کنند آن را در همان اقتصادی که او پول درمی‌آورد، بفروشند.» جردن ابزاری را برای «مسموم کردن» مدل‌های هوش مصنوعی مولد توسعه داده است. اساساً، نرم‌افزار او نویز را به فایل‌های صوتی اضافه می‌کند که انسان‌ها نمی‌توانند آن را بشنوند اما مدل‌های هوش مصنوعی را گیج می‌کند. این همان تکنیکی است که برخی هنرمندان بصری برای مبارزه با کپی‌برداری غیرقانونی از آثارشان استفاده می‌کنند. اثربخشی این ابزارها مورد بحث قرار گرفته است، اما محققان نشان داده‌اند که در برخی موارد، چند نمونه مسموم شده می‌تواند به طور قابل توجهی یک مدل هوش مصنوعی را تخریب کند.

در Free Music Archive، گیتاریست و خواننده، درک کلگ، بیش از ۱۵ سال است که آهنگ‌های اصلی و ضبط شده در خانه خود را به اشتراک می‌گذارد. کلگ به من گفت که از اینکه مردم موسیقی او را در پس‌زمینه ویدیوهای شخصی خود قرار دهند، خوشحال است، به شرطی که به او اعتبار دهند. وقتی مردم انتظار دارند از استفاده از موسیقی او پول دربیاورند، باید برای مجوز به او پول بپردازند. بیش از ۲۵۰ آهنگ کلگ در مجموعه داده FMA که من پیدا کردم، قرار دارد. پرسیدم که آیا اگر مکانیزمی برای انصراف از آموزش هوش مصنوعی وجود داشت، او این کار را می‌کرد یا خیر. او گفت: «بله، قطعاً.»

آنچه بیش از همه کلگ را آزار می‌دهد این است که شرکت‌های هوش مصنوعی موسیقی مردم را بدون رضایت و بدون اذعان به اینکه محصولات فناوری‌شان کاملاً وابسته به موسیقیدانان هستند، برمی‌دارند. او گفت: «این فقط غیرصادقانه به نظر می‌رسد. به نظر می‌رسد دزدی است. باید یک روز حساب و کتابی باشد.» به هر حال این امید اوست.