سازمان غیرانتفاعی که کارهای کثیف صنعت هوش مصنوعی را انجام می‌دهد

بنیاد Common Crawl در خارج از سیلیکون ولی کمتر شناخته شده است. این سازمان غیرانتفاعی بیش از یک دهه است که میلیاردها صفحه وب را برای ساخت یک آرشیو عظیم از اینترنت اسکرپ می‌کند. این پایگاه داده—که به اندازه‌ای بزرگ است که با پتابایت اندازه‌گیری می‌شود—به صورت رایگان برای تحقیق در دسترس است. با این حال، در سال‌های اخیر، این آرشیو برای هدف بحث‌برانگیزی مورد استفاده قرار گرفته است: شرکت‌های هوش مصنوعی از جمله OpenAI، گوگل، Anthropic، Nvidia، متا و آمازون از آن برای آموزش مدل‌های زبانی بزرگ خود استفاده کرده‌اند. در این فرآیند، گزارش‌های من نشان داده است که Common Crawl دریچه‌ای پشتی برای شرکت‌های هوش مصنوعی ایجاد کرده تا مدل‌های خود را با مقالات دارای دیوار پرداخت از وب‌سایت‌های خبری اصلی آموزش دهند. و به نظر می‌رسد این بنیاد در این باره به ناشران دروغ می‌گوید—و همچنین محتوای واقعی آرشیوهای خود را پنهان می‌کند.

Common Crawl علناً درباره حمایت خود از توسعه مدل‌های زبانی بزرگ (LLM) چیز زیادی نگفته است. از اوایل دهه ۲۰۱۰، محققان از مجموعه‌های Common Crawl برای اهداف مختلفی استفاده کرده‌اند: برای ساخت سیستم‌های ترجمه ماشینی، برای ردیابی مصارف غیرمتعارف داروها با تحلیل بحث‌ها در انجمن‌های آنلاین، و برای مطالعه ممنوعیت کتاب در کشورهای مختلف، در میان موارد دیگر. در مصاحبه‌ای در سال ۲۰۱۲، گیل الباز، بنیانگذار Common Crawl، درباره آرشیو خود اظهار داشت: «ما فقط باید مطمئن شویم که مردم از آن به روش صحیح استفاده می‌کنند. استفاده منصفانه می‌گوید شما می‌توانید کارهای خاصی را با داده‌های جهان انجام دهید، و تا زمانی که مردم به این موضوع احترام بگذارند و حق تکثیر این داده‌ها را رعایت کنند، همه چیز عالی است.»

وب‌سایت Common Crawl بیان می‌کند که اینترنت را برای «محتوای آزادانه در دسترس» بدون «عبور از هیچ 'دیوار پرداختی'» اسکرپ می‌کند. با این حال، این سازمان مقالاتی را از وب‌سایت‌های خبری اصلی که معمولاً مردم باید برایشان هزینه پرداخت کنند، برداشته است—و به شرکت‌های هوش مصنوعی اجازه می‌دهد مدل‌های زبانی بزرگ خود را به صورت رایگان بر اساس روزنامه‌نگاری با کیفیت بالا آموزش دهند. در همین حال، ریچ اسکرنتا، مدیر اجرایی Common Crawl، علناً استدلال کرده است که مدل‌های هوش مصنوعی باید بتوانند به هر چیزی در اینترنت دسترسی داشته باشند. او به من گفت: «ربات‌ها هم آدم هستند» و بنابراین باید اجازه داشته باشند که «کتاب‌ها را» به صورت رایگان بخوانند. چندین ناشر خبری درخواست کرده‌اند که Common Crawl مقالات آنها را حذف کند تا دقیقاً از این نوع استفاده جلوگیری شود. Common Crawl می‌گوید که با این درخواست‌ها موافقت می‌کند. اما تحقیقات من نشان می‌دهد که چنین نیست.

من کشف کرده‌ام که صفحاتی که توسط Common Crawl دانلود شده‌اند، در داده‌های آموزشی هزاران مدل هوش مصنوعی ظاهر شده‌اند. همانطور که استفان باک، محقق سابق موزیلا، نوشته است: «هوش مصنوعی مولد به شکل کنونی خود احتمالاً بدون Common Crawl ممکن نبود.» در سال ۲۰۲۰، OpenAI از آرشیوهای Common Crawl برای آموزش GPT-3 استفاده کرد. OpenAI ادعا کرد که این برنامه می‌تواند «مقالات خبری را تولید کند که ارزیابی‌کنندگان انسانی در تشخیص آنها از مقالات نوشته شده توسط انسان مشکل دارند»، و در سال ۲۰۲۲، نسخه‌ای از آن مدل، GPT-3.5، اساس ChatGPT شد و رونق فعلی هوش مصنوعی مولد را آغاز کرد. بسیاری از شرکت‌های هوش مصنوعی اکنون از مقالات ناشران برای آموزش مدل‌هایی استفاده می‌کنند که اخبار را خلاصه و بازنویسی می‌کنند، و این مدل‌ها را به روش‌هایی به کار می‌گیرند که خوانندگان را از نویسندگان و ناشران می‌ربایند.

Common Crawl اصرار دارد که کار اشتباهی انجام نمی‌دهد. من در حین گزارش این داستان دو بار با اسکرنتا صحبت کردم. در گفتگوی دوم، از او در مورد آرشیو کردن مقالات خبری توسط این بنیاد حتی پس از درخواست ناشران برای توقف این کار، پرسیدم. اسکرنتا به من گفت که این ناشران با کنار گذاشتن خود از «Search 2.0»—با اشاره به محصولات هوش مصنوعی مولدی که اکنون به طور گسترده برای یافتن اطلاعات آنلاین استفاده می‌شوند—اشتباه می‌کنند، و گفت که به هر حال، این ناشران بودند که کار خود را در وهله اول در دسترس قرار دادند. او گفت: «شما نباید محتوای خود را در اینترنت قرار می‌دادید اگر نمی‌خواستید در اینترنت باشد.»

Common Crawl به وب‌سایت‌هایی که اسکرپ می‌کند وارد نمی‌شود، اما اسکرپر آن در برابر برخی از مکانیسم‌های دیوار پرداخت که توسط ناشران خبری استفاده می‌شود، مقاوم است. به عنوان مثال، در بسیاری از وب‌سایت‌های خبری، می‌توانید قبل از اینکه مرورگر وب شما کد دیوار پرداخت را اجرا کند که بررسی می‌کند آیا شما مشترک هستید یا خیر و محتوا را در صورت عدم اشتراک پنهان می‌کند، متن کامل هر مقاله را برای مدت کوتاهی مشاهده کنید. اسکرپر Common Crawl هرگز آن کد را اجرا نمی‌کند، بنابراین مقالات کامل را دریافت می‌کند. بنابراین، برآورد من این است که آرشیوهای این بنیاد شامل میلیون‌ها مقاله از سازمان‌های خبری در سراسر جهان، از جمله The Economist، Los Angeles Times، The Wall Street Journal، The New York Times، The New Yorker، Harper’s و The Atlantic است.

برخی از ناشران خبری از فعالیت‌های Common Crawl مطلع شده‌اند و برخی با افزودن یک دستورالعمل به کد وب‌سایت خود، اسکرپر این بنیاد را مسدود کرده‌اند. در سال گذشته، CCBot متعلق به Common Crawl به پراستفاده‌ترین اسکرپر مسدود شده توسط ۱۰۰۰ وب‌سایت برتر تبدیل شده و حتی از GPTBot متعلق به OpenAI، که محتوا را برای ChatGPT جمع‌آوری می‌کند، پیشی گرفته است. با این حال، مسدودسازی تنها از اسکرپ شدن محتوای آینده جلوگیری می‌کند. این کار بر صفحات وبی که Common Crawl قبلاً جمع‌آوری و در آرشیوهای خود ذخیره کرده است، تأثیری ندارد.

در ژوئیه ۲۰۲۳، The New York Times اخطاریه‌ای به Common Crawl ارسال کرد و خواستار حذف محتوای قبلی اسکرپ شده از Times شد. (در دعوای خود علیه OpenAI، Times اشاره کرد که Common Crawl شامل «حداقل ۱۶ میلیون رکورد منحصربه‌فرد محتوا» از وب‌سایت‌های Times است.) به نظر می‌رسید این سازمان غیرانتفاعی با این درخواست موافق است. در نوامبر همان سال، چارلی اشتاتلندر، سخنگوی Times، به Business Insider گفت: «ما صرفاً خواستار حذف محتوای خود شدیم و از اینکه Common Crawl موافقت کرد، خرسندیم.»

اما همانطور که آرشیوهای Common Crawl را بررسی کردم، متوجه شدم که بسیاری از مقالات Times هنوز هم موجود هستند. وقتی این موضوع را به Times گفتم، اشتاتلندر به من گفت: «درک ما از آنها این است که آنها اکثر محتوای Times را حذف کرده‌اند و به تلاش برای حذف کامل ادامه می‌دهند.»

اتحادیه حقوق دانمارک (DRA)، سازمانی که نماینده ناشران و سایر صاحبان حقوق در دانمارک است، در مورد تعاملی مشابه با Common Crawl به من گفت. توماس هلدرآپ، رئیس بخش حفاظت و اجرای محتوا در این سازمان، یک تبادل ایمیلی محرمانه با این سازمان غیرانتفاعی را به من نشان داد که در ژوئیه ۲۰۲۴ آغاز شد، که در آن DRA درخواست کرد که محتوای اعضای آن از آرشیو حذف شود. در دسامبر ۲۰۲۴، بیش از شش ماه پس از درخواست اولیه DRA، وکیل Common Crawl نوشت: «من تأیید می‌کنم که Common Crawl کار حذف محتوای اعضای شما را از آرشیو داده‌ها آغاز کرده است. در حال حاضر، تقریباً ۵۰ درصد از این محتوا حذف شده است.» با ناشران دیگری نیز صحبت کردم که پیام‌های مشابهی از Common Crawl دریافت کرده بودند. به یکی از آنها، پس از چندین ایمیل پیگیری، گفته شد که حذف ۵۰ درصد، ۷۰ درصد، و سپس ۸۰ درصد کامل شده است.

با نوشتن کدی برای مرور پتابایت‌ها داده، توانستم ببینم که مقادیر زیادی از مقالات Times، DRA و این ناشران دیگر هنوز در آرشیوهای Common Crawl موجود هستند. علاوه بر این، فایل‌ها در سیستمی ذخیره می‌شوند که زمان اصلاح هر فایل را ثبت می‌کند. این بنیاد هر چند هفته یک "خزش" جدید به آرشیو خود اضافه می‌کند که هر یک شامل ۱ تا ۴ میلیارد صفحه وب است، و از سال ۲۰۱۳ این نسخه‌های منظم را منتشر کرده است. به نظر نمی‌رسد هیچ یک از فایل‌های محتوا در آرشیوهای Common Crawl از سال ۲۰۱۶ تاکنون اصلاح شده باشند، که نشان می‌دهد حداقل در ۹ سال گذشته هیچ محتوایی حذف نشده است.

در گفتگوی اولمان، اسکرنتا به من گفت که درخواست‌های حذف «یک دردسر» هستند، اما اصرار داشت که این بنیاد با آنها موافقت می‌کند. در گفتگوی دوممان، اسکرنتا رک و راست‌تر بود. او گفت که Common Crawl «تلاش جدی» برای حذف محتوا انجام می‌دهد، اما فرمت فایلی که Common Crawl آرشیوهای خود را در آن ذخیره می‌کند، به گونه‌ای است که «تغییرناپذیر است. نمی‌توانید چیزی را از آن حذف کنید.» (او به سوال من درباره منبع ارقام حذف ۵۰، ۷۰ و ۸۰ درصدی پاسخ نداد.)

با این حال، به نظر می‌رسد این سازمان غیرانتفاعی این موضوع را از بازدیدکنندگان وب‌سایت خود پنهان می‌کند، جایی که عملکرد جستجو، تنها ابزار غیرفنی برای دیدن محتوای آرشیوهای Common Crawl، نتایج گمراه‌کننده‌ای را برای دامنه‌های خاص بازمی‌گرداند. جستجوی nytimes.com در هر خزش از سال ۲۰۱۳ تا ۲۰۲۲ نتیجه «بدون ثبت» را نشان می‌دهد، در حالی که در واقع مقالاتی از nytimes.com در اکثر این خزش‌ها وجود دارد. همچنین بیش از ۱۰۰۰ دامنه دیگر را کشف کردم که این نتیجه نادرست «بدون ثبت» را برای حداقل چندین خزش تولید می‌کنند، و بیشتر این دامنه‌ها متعلق به ناشرانی هستند، از جمله BBC، Reuters، The New Yorker، Wired، Financial Times، The Washington Post و بله، The Atlantic. طبق تحقیقات من و افشای اطلاعات خود Common Crawl، شرکت‌های پشت هر یک از این نشریات درخواست‌های قانونی به این سازمان غیرانتفاعی ارسال کرده‌اند. حداقل یک ناشر که با او صحبت کردم به من گفت که از این ابزار جستجو استفاده کرده و به این نتیجه رسیده است که محتوای آن از آرشیوهای Common Crawl حذف شده است.

در دو سال گذشته، Common Crawl بیشتر با صنعت هوش مصنوعی رفیق شده است. در سال ۲۰۲۳، پس از ۱۵ سال حمایت مالی تقریباً انحصاری از Elbaz Family Foundation Trust، این سازمان کمک‌هایی از OpenAI (۲۵۰,۰۰۰ دلار)، Anthropic (۲۵۰,۰۰۰ دلار) و سایر سازمان‌های درگیر در توسعه هوش مصنوعی دریافت کرد. (اسکرنتا به من گفت که اداره Common Crawl «میلیون‌ها دلار» هزینه دارد.)

هنگام آموزش مدل‌های هوش مصنوعی، توسعه‌دهندگانی مانند OpenAI و گوگل معمولاً آرشیوهای Common Crawl را فیلتر می‌کنند تا مطالبی را که نمی‌خواهند، مانند نژادپرستی، ناسزاگویی و اشکال مختلف نثر با کیفیت پایین، حذف کنند. هر توسعه‌دهنده و شرکت استراتژی فیلترگذاری خاص خود را دارد، که منجر به تکثیر مجموعه‌های داده آموزشی مبتنی بر Common Crawl شده است: c4 (تولید شده توسط گوگل)، FineWeb، DCLM، و بیش از ۵۰ مورد دیگر. در مجموع، این مجموعه‌های داده ده‌ها میلیون بار از Hugging Face، یک مرکز توسعه هوش مصنوعی، و سایر منابع دانلود شده‌اند.

اما Common Crawl فقط متن خام را تامین نمی‌کند؛ بلکه خود نیز به جمع‌آوری و توزیع مجموعه‌های داده آموزشی هوش مصنوعی کمک کرده است. توسعه‌دهندگان آن در چندین مقاله مشترک در مورد انتخاب داده‌های آموزشی مدل‌های زبانی بزرگ همکاری کرده‌اند، و گاهی اوقات در کنفرانس‌ها حضور می‌یابند و به توسعه‌دهندگان هوش مصنوعی نحوه استفاده از Common Crawl را برای آموزش نشان می‌دهند. Common Crawl حتی چندین مجموعه داده آموزشی هوش مصنوعی برگرفته از خزش‌های خود را میزبانی می‌کند، از جمله یکی برای Nvidia، باارزش‌ترین شرکت در جهان. در مقاله خود در مورد این مجموعه داده، Nvidia از توسعه‌دهندگان خاص Common Crawl به خاطر مشاوره آنها تشکر می‌کند.

شرکت‌های هوش مصنوعی استدلال کرده‌اند که استفاده از مواد دارای حق تکثیر، استفاده منصفانه است، و اسکرنتا مدتی است که این مسئله را در قالب حقوق ربات‌ها مطرح می‌کند. در سال ۲۰۲۳، او نامه‌ای فرستاد و دفتر حق تکثیر ایالات متحده را ترغیب کرد که «مانع توسعه ماشین‌های هوشمند» نشود و دو تصویر از ربات‌های کتاب‌خوان را به آن پیوست. اما این استدلال بازیگران اصلی را پنهان می‌کند: نه ربات‌ها بلکه شرکت‌ها و مدیران قدرتمند آنها که تصمیم می‌گیرند چه محتوایی را برای آموزش مدل‌های خود استفاده کنند و از نتایج آن سود می‌برند.

اگر Common Crawl می‌خواست، می‌توانست آسیب‌های وارده توسط آن شرکت‌ها به نویسندگان و ناشران را بدون اینکه داده‌های خود را برای محققان کمتر قابل دسترسی کند، کاهش دهد. در گزارش سال ۲۰۲۴ خود، باک، محقق سابق موزیلا، اشاره کرد که Common Crawl می‌تواند در صورت استفاده از محتوای اسکرپ شده خود، ارجاع دادن را الزامی کند. این به ناشران کمک می‌کند تا استفاده از آثار خود را ردیابی کنند، از جمله زمانی که ممکن است در داده‌های آموزشی مدل‌های هوش مصنوعی که قرار نیست به آنها دسترسی داشته باشند، ظاهر شود. این یک الزام رایج برای مجموعه‌های داده باز است و هیچ هزینه‌ای برای Common Crawl نخواهد داشت. از اسکرنتا پرسیدم آیا او این موضوع را در نظر گرفته است. او به من گفت که گزارش باک را خوانده است اما قصد ندارد این پیشنهاد را عملی کند، زیرا این مسئولیت Common Crawl نیست. او به من گفت: «ما نمی‌توانیم کل آن را پلیس کنیم. این وظیفه ما نیست. ما فقط یک دسته قفسه کتاب غبارآلود هستیم.»

اسکرنتا گفته است که ناشرانی که می‌خواهند محتوای خود را از Common Crawl حذف کنند، «وب باز را نابود خواهند کرد.» به همین ترتیب، صنعت هوش مصنوعی اغلب حق فرضی خود برای اسکرپ وب را با استناد به مفهوم باز بودن توجیه می‌کند. اما دیگران اشاره کرده‌اند که شرکت‌های هوش مصنوعی مولد همان‌هایی هستند که باز بودن را از بین می‌برند، با ترغیب ناشران به گسترش و تقویت دیوار پرداخت‌های خود برای دفاع از آثارشان (و مدل‌های کسب و کارشان) در برابر اسکرپر‌های استثمارگر.

Common Crawl با ترویج ایده‌ای مشکوک و خوشایند دیگر، گفته است که اینترنت «جایی است که اطلاعات آزادانه زندگی می‌کند»، که پژواکی از شعار آزادی‌خواهانه فناوری «اطلاعات می‌خواهد آزاد باشد» است. در استفاده عمومی، این عبارت اغلب از بافت خود تهی می‌شود. این عبارت از اظهارنظری توسط استوارت برند، آینده‌نگار فناوری، در سال ۱۹۸۴ می‌آید. در بحثی درباره نحوه شتاب‌دهی کامپیوترها به انتشار اطلاعات، برند مشاهده کرد که «اطلاعات تا حدی می‌خواهد گران باشد، زیرا بسیار ارزشمند است.» اما به طور متناقض، او گفت: «اطلاعات تقریباً می‌خواهد آزاد باشد» زیرا کامپیوترها هزینه توزیع آن را بسیار پایین می‌آورند. به عبارت دیگر، این به آن معنا نیست که اطلاعات باید آزاد باشد—بلکه کامپیوترها تمایل دارند آن را آزاد جلوه دهند. با این حال، این ایده امروز توسط سازمان‌های پنهان‌کاری مانند Common Crawl به کار گرفته می‌شود که انتخاب می‌کنند کدام اطلاعات «آزادانه زندگی کند» و کدام نه.

در گفتگوی ما، اسکرنتا اهمیت روزنامه‌ها یا مجلات خاص را کم‌اهمیت جلوه داد. او به من گفت که The Atlantic بخش حیاتی اینترنت نیست. او گفت: «هر آنچه شما می‌گویید، دیگران نیز در سایت‌های دیگر می‌گویند.» در طول گفتگوی ما، اسکرنتا این برداشت را ایجاد کرد که احترام کمی برای نحوه کار گزارش‌نویسی اصلی دارد (یا آن را درک نمی‌کند).

با این حال، اسکرنتا برای آرشیو Common Crawl احترام فوق‌العاده‌ای قائل بود. او آن را به عنوان رکوردی از دستاوردهای تمدن ما می‌بیند. او به من گفت که می‌خواهد «آن را روی یک مکعب کریستالی بگذارد و روی ماه بچسباند»، تا «اگر زمین منفجر شود»، بیگانگان ممکن است بتوانند تاریخ ما را بازسازی کنند. او به من گفت: «The Economist و The Atlantic روی آن مکعب نخواهند بود. مقاله شما روی آن مکعب نخواهد بود. این مقاله.»

https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/