بنیاد Common Crawl در خارج از سیلیکون ولی کمتر شناخته شده است. این سازمان غیرانتفاعی بیش از یک دهه است که میلیاردها صفحه وب را برای ساخت یک آرشیو عظیم از اینترنت اسکرپ میکند. این پایگاه داده—که به اندازهای بزرگ است که با پتابایت اندازهگیری میشود—به صورت رایگان برای تحقیق در دسترس است. با این حال، در سالهای اخیر، این آرشیو برای هدف بحثبرانگیزی مورد استفاده قرار گرفته است: شرکتهای هوش مصنوعی از جمله OpenAI، گوگل، Anthropic، Nvidia، متا و آمازون از آن برای آموزش مدلهای زبانی بزرگ خود استفاده کردهاند. در این فرآیند، گزارشهای من نشان داده است که Common Crawl دریچهای پشتی برای شرکتهای هوش مصنوعی ایجاد کرده تا مدلهای خود را با مقالات دارای دیوار پرداخت از وبسایتهای خبری اصلی آموزش دهند. و به نظر میرسد این بنیاد در این باره به ناشران دروغ میگوید—و همچنین محتوای واقعی آرشیوهای خود را پنهان میکند.
Common Crawl علناً درباره حمایت خود از توسعه مدلهای زبانی بزرگ (LLM) چیز زیادی نگفته است. از اوایل دهه ۲۰۱۰، محققان از مجموعههای Common Crawl برای اهداف مختلفی استفاده کردهاند: برای ساخت سیستمهای ترجمه ماشینی، برای ردیابی مصارف غیرمتعارف داروها با تحلیل بحثها در انجمنهای آنلاین، و برای مطالعه ممنوعیت کتاب در کشورهای مختلف، در میان موارد دیگر. در مصاحبهای در سال ۲۰۱۲، گیل الباز، بنیانگذار Common Crawl، درباره آرشیو خود اظهار داشت: «ما فقط باید مطمئن شویم که مردم از آن به روش صحیح استفاده میکنند. استفاده منصفانه میگوید شما میتوانید کارهای خاصی را با دادههای جهان انجام دهید، و تا زمانی که مردم به این موضوع احترام بگذارند و حق تکثیر این دادهها را رعایت کنند، همه چیز عالی است.»
وبسایت Common Crawl بیان میکند که اینترنت را برای «محتوای آزادانه در دسترس» بدون «عبور از هیچ 'دیوار پرداختی'» اسکرپ میکند. با این حال، این سازمان مقالاتی را از وبسایتهای خبری اصلی که معمولاً مردم باید برایشان هزینه پرداخت کنند، برداشته است—و به شرکتهای هوش مصنوعی اجازه میدهد مدلهای زبانی بزرگ خود را به صورت رایگان بر اساس روزنامهنگاری با کیفیت بالا آموزش دهند. در همین حال، ریچ اسکرنتا، مدیر اجرایی Common Crawl، علناً استدلال کرده است که مدلهای هوش مصنوعی باید بتوانند به هر چیزی در اینترنت دسترسی داشته باشند. او به من گفت: «رباتها هم آدم هستند» و بنابراین باید اجازه داشته باشند که «کتابها را» به صورت رایگان بخوانند. چندین ناشر خبری درخواست کردهاند که Common Crawl مقالات آنها را حذف کند تا دقیقاً از این نوع استفاده جلوگیری شود. Common Crawl میگوید که با این درخواستها موافقت میکند. اما تحقیقات من نشان میدهد که چنین نیست.
من کشف کردهام که صفحاتی که توسط Common Crawl دانلود شدهاند، در دادههای آموزشی هزاران مدل هوش مصنوعی ظاهر شدهاند. همانطور که استفان باک، محقق سابق موزیلا، نوشته است: «هوش مصنوعی مولد به شکل کنونی خود احتمالاً بدون Common Crawl ممکن نبود.» در سال ۲۰۲۰، OpenAI از آرشیوهای Common Crawl برای آموزش GPT-3 استفاده کرد. OpenAI ادعا کرد که این برنامه میتواند «مقالات خبری را تولید کند که ارزیابیکنندگان انسانی در تشخیص آنها از مقالات نوشته شده توسط انسان مشکل دارند»، و در سال ۲۰۲۲، نسخهای از آن مدل، GPT-3.5، اساس ChatGPT شد و رونق فعلی هوش مصنوعی مولد را آغاز کرد. بسیاری از شرکتهای هوش مصنوعی اکنون از مقالات ناشران برای آموزش مدلهایی استفاده میکنند که اخبار را خلاصه و بازنویسی میکنند، و این مدلها را به روشهایی به کار میگیرند که خوانندگان را از نویسندگان و ناشران میربایند.
Common Crawl اصرار دارد که کار اشتباهی انجام نمیدهد. من در حین گزارش این داستان دو بار با اسکرنتا صحبت کردم. در گفتگوی دوم، از او در مورد آرشیو کردن مقالات خبری توسط این بنیاد حتی پس از درخواست ناشران برای توقف این کار، پرسیدم. اسکرنتا به من گفت که این ناشران با کنار گذاشتن خود از «Search 2.0»—با اشاره به محصولات هوش مصنوعی مولدی که اکنون به طور گسترده برای یافتن اطلاعات آنلاین استفاده میشوند—اشتباه میکنند، و گفت که به هر حال، این ناشران بودند که کار خود را در وهله اول در دسترس قرار دادند. او گفت: «شما نباید محتوای خود را در اینترنت قرار میدادید اگر نمیخواستید در اینترنت باشد.»
Common Crawl به وبسایتهایی که اسکرپ میکند وارد نمیشود، اما اسکرپر آن در برابر برخی از مکانیسمهای دیوار پرداخت که توسط ناشران خبری استفاده میشود، مقاوم است. به عنوان مثال، در بسیاری از وبسایتهای خبری، میتوانید قبل از اینکه مرورگر وب شما کد دیوار پرداخت را اجرا کند که بررسی میکند آیا شما مشترک هستید یا خیر و محتوا را در صورت عدم اشتراک پنهان میکند، متن کامل هر مقاله را برای مدت کوتاهی مشاهده کنید. اسکرپر Common Crawl هرگز آن کد را اجرا نمیکند، بنابراین مقالات کامل را دریافت میکند. بنابراین، برآورد من این است که آرشیوهای این بنیاد شامل میلیونها مقاله از سازمانهای خبری در سراسر جهان، از جمله The Economist، Los Angeles Times، The Wall Street Journal، The New York Times، The New Yorker، Harper’s و The Atlantic است.
برخی از ناشران خبری از فعالیتهای Common Crawl مطلع شدهاند و برخی با افزودن یک دستورالعمل به کد وبسایت خود، اسکرپر این بنیاد را مسدود کردهاند. در سال گذشته، CCBot متعلق به Common Crawl به پراستفادهترین اسکرپر مسدود شده توسط ۱۰۰۰ وبسایت برتر تبدیل شده و حتی از GPTBot متعلق به OpenAI، که محتوا را برای ChatGPT جمعآوری میکند، پیشی گرفته است. با این حال، مسدودسازی تنها از اسکرپ شدن محتوای آینده جلوگیری میکند. این کار بر صفحات وبی که Common Crawl قبلاً جمعآوری و در آرشیوهای خود ذخیره کرده است، تأثیری ندارد.
در ژوئیه ۲۰۲۳، The New York Times اخطاریهای به Common Crawl ارسال کرد و خواستار حذف محتوای قبلی اسکرپ شده از Times شد. (در دعوای خود علیه OpenAI، Times اشاره کرد که Common Crawl شامل «حداقل ۱۶ میلیون رکورد منحصربهفرد محتوا» از وبسایتهای Times است.) به نظر میرسید این سازمان غیرانتفاعی با این درخواست موافق است. در نوامبر همان سال، چارلی اشتاتلندر، سخنگوی Times، به Business Insider گفت: «ما صرفاً خواستار حذف محتوای خود شدیم و از اینکه Common Crawl موافقت کرد، خرسندیم.»
اما همانطور که آرشیوهای Common Crawl را بررسی کردم، متوجه شدم که بسیاری از مقالات Times هنوز هم موجود هستند. وقتی این موضوع را به Times گفتم، اشتاتلندر به من گفت: «درک ما از آنها این است که آنها اکثر محتوای Times را حذف کردهاند و به تلاش برای حذف کامل ادامه میدهند.»
اتحادیه حقوق دانمارک (DRA)، سازمانی که نماینده ناشران و سایر صاحبان حقوق در دانمارک است، در مورد تعاملی مشابه با Common Crawl به من گفت. توماس هلدرآپ، رئیس بخش حفاظت و اجرای محتوا در این سازمان، یک تبادل ایمیلی محرمانه با این سازمان غیرانتفاعی را به من نشان داد که در ژوئیه ۲۰۲۴ آغاز شد، که در آن DRA درخواست کرد که محتوای اعضای آن از آرشیو حذف شود. در دسامبر ۲۰۲۴، بیش از شش ماه پس از درخواست اولیه DRA، وکیل Common Crawl نوشت: «من تأیید میکنم که Common Crawl کار حذف محتوای اعضای شما را از آرشیو دادهها آغاز کرده است. در حال حاضر، تقریباً ۵۰ درصد از این محتوا حذف شده است.» با ناشران دیگری نیز صحبت کردم که پیامهای مشابهی از Common Crawl دریافت کرده بودند. به یکی از آنها، پس از چندین ایمیل پیگیری، گفته شد که حذف ۵۰ درصد، ۷۰ درصد، و سپس ۸۰ درصد کامل شده است.
با نوشتن کدی برای مرور پتابایتها داده، توانستم ببینم که مقادیر زیادی از مقالات Times، DRA و این ناشران دیگر هنوز در آرشیوهای Common Crawl موجود هستند. علاوه بر این، فایلها در سیستمی ذخیره میشوند که زمان اصلاح هر فایل را ثبت میکند. این بنیاد هر چند هفته یک "خزش" جدید به آرشیو خود اضافه میکند که هر یک شامل ۱ تا ۴ میلیارد صفحه وب است، و از سال ۲۰۱۳ این نسخههای منظم را منتشر کرده است. به نظر نمیرسد هیچ یک از فایلهای محتوا در آرشیوهای Common Crawl از سال ۲۰۱۶ تاکنون اصلاح شده باشند، که نشان میدهد حداقل در ۹ سال گذشته هیچ محتوایی حذف نشده است.
در گفتگوی اولمان، اسکرنتا به من گفت که درخواستهای حذف «یک دردسر» هستند، اما اصرار داشت که این بنیاد با آنها موافقت میکند. در گفتگوی دوممان، اسکرنتا رک و راستتر بود. او گفت که Common Crawl «تلاش جدی» برای حذف محتوا انجام میدهد، اما فرمت فایلی که Common Crawl آرشیوهای خود را در آن ذخیره میکند، به گونهای است که «تغییرناپذیر است. نمیتوانید چیزی را از آن حذف کنید.» (او به سوال من درباره منبع ارقام حذف ۵۰، ۷۰ و ۸۰ درصدی پاسخ نداد.)
با این حال، به نظر میرسد این سازمان غیرانتفاعی این موضوع را از بازدیدکنندگان وبسایت خود پنهان میکند، جایی که عملکرد جستجو، تنها ابزار غیرفنی برای دیدن محتوای آرشیوهای Common Crawl، نتایج گمراهکنندهای را برای دامنههای خاص بازمیگرداند. جستجوی nytimes.com در هر خزش از سال ۲۰۱۳ تا ۲۰۲۲ نتیجه «بدون ثبت» را نشان میدهد، در حالی که در واقع مقالاتی از nytimes.com در اکثر این خزشها وجود دارد. همچنین بیش از ۱۰۰۰ دامنه دیگر را کشف کردم که این نتیجه نادرست «بدون ثبت» را برای حداقل چندین خزش تولید میکنند، و بیشتر این دامنهها متعلق به ناشرانی هستند، از جمله BBC، Reuters، The New Yorker، Wired، Financial Times، The Washington Post و بله، The Atlantic. طبق تحقیقات من و افشای اطلاعات خود Common Crawl، شرکتهای پشت هر یک از این نشریات درخواستهای قانونی به این سازمان غیرانتفاعی ارسال کردهاند. حداقل یک ناشر که با او صحبت کردم به من گفت که از این ابزار جستجو استفاده کرده و به این نتیجه رسیده است که محتوای آن از آرشیوهای Common Crawl حذف شده است.
در دو سال گذشته، Common Crawl بیشتر با صنعت هوش مصنوعی رفیق شده است. در سال ۲۰۲۳، پس از ۱۵ سال حمایت مالی تقریباً انحصاری از Elbaz Family Foundation Trust، این سازمان کمکهایی از OpenAI (۲۵۰,۰۰۰ دلار)، Anthropic (۲۵۰,۰۰۰ دلار) و سایر سازمانهای درگیر در توسعه هوش مصنوعی دریافت کرد. (اسکرنتا به من گفت که اداره Common Crawl «میلیونها دلار» هزینه دارد.)
هنگام آموزش مدلهای هوش مصنوعی، توسعهدهندگانی مانند OpenAI و گوگل معمولاً آرشیوهای Common Crawl را فیلتر میکنند تا مطالبی را که نمیخواهند، مانند نژادپرستی، ناسزاگویی و اشکال مختلف نثر با کیفیت پایین، حذف کنند. هر توسعهدهنده و شرکت استراتژی فیلترگذاری خاص خود را دارد، که منجر به تکثیر مجموعههای داده آموزشی مبتنی بر Common Crawl شده است: c4 (تولید شده توسط گوگل)، FineWeb، DCLM، و بیش از ۵۰ مورد دیگر. در مجموع، این مجموعههای داده دهها میلیون بار از Hugging Face، یک مرکز توسعه هوش مصنوعی، و سایر منابع دانلود شدهاند.
اما Common Crawl فقط متن خام را تامین نمیکند؛ بلکه خود نیز به جمعآوری و توزیع مجموعههای داده آموزشی هوش مصنوعی کمک کرده است. توسعهدهندگان آن در چندین مقاله مشترک در مورد انتخاب دادههای آموزشی مدلهای زبانی بزرگ همکاری کردهاند، و گاهی اوقات در کنفرانسها حضور مییابند و به توسعهدهندگان هوش مصنوعی نحوه استفاده از Common Crawl را برای آموزش نشان میدهند. Common Crawl حتی چندین مجموعه داده آموزشی هوش مصنوعی برگرفته از خزشهای خود را میزبانی میکند، از جمله یکی برای Nvidia، باارزشترین شرکت در جهان. در مقاله خود در مورد این مجموعه داده، Nvidia از توسعهدهندگان خاص Common Crawl به خاطر مشاوره آنها تشکر میکند.
شرکتهای هوش مصنوعی استدلال کردهاند که استفاده از مواد دارای حق تکثیر، استفاده منصفانه است، و اسکرنتا مدتی است که این مسئله را در قالب حقوق رباتها مطرح میکند. در سال ۲۰۲۳، او نامهای فرستاد و دفتر حق تکثیر ایالات متحده را ترغیب کرد که «مانع توسعه ماشینهای هوشمند» نشود و دو تصویر از رباتهای کتابخوان را به آن پیوست. اما این استدلال بازیگران اصلی را پنهان میکند: نه رباتها بلکه شرکتها و مدیران قدرتمند آنها که تصمیم میگیرند چه محتوایی را برای آموزش مدلهای خود استفاده کنند و از نتایج آن سود میبرند.
اگر Common Crawl میخواست، میتوانست آسیبهای وارده توسط آن شرکتها به نویسندگان و ناشران را بدون اینکه دادههای خود را برای محققان کمتر قابل دسترسی کند، کاهش دهد. در گزارش سال ۲۰۲۴ خود، باک، محقق سابق موزیلا، اشاره کرد که Common Crawl میتواند در صورت استفاده از محتوای اسکرپ شده خود، ارجاع دادن را الزامی کند. این به ناشران کمک میکند تا استفاده از آثار خود را ردیابی کنند، از جمله زمانی که ممکن است در دادههای آموزشی مدلهای هوش مصنوعی که قرار نیست به آنها دسترسی داشته باشند، ظاهر شود. این یک الزام رایج برای مجموعههای داده باز است و هیچ هزینهای برای Common Crawl نخواهد داشت. از اسکرنتا پرسیدم آیا او این موضوع را در نظر گرفته است. او به من گفت که گزارش باک را خوانده است اما قصد ندارد این پیشنهاد را عملی کند، زیرا این مسئولیت Common Crawl نیست. او به من گفت: «ما نمیتوانیم کل آن را پلیس کنیم. این وظیفه ما نیست. ما فقط یک دسته قفسه کتاب غبارآلود هستیم.»
اسکرنتا گفته است که ناشرانی که میخواهند محتوای خود را از Common Crawl حذف کنند، «وب باز را نابود خواهند کرد.» به همین ترتیب، صنعت هوش مصنوعی اغلب حق فرضی خود برای اسکرپ وب را با استناد به مفهوم باز بودن توجیه میکند. اما دیگران اشاره کردهاند که شرکتهای هوش مصنوعی مولد همانهایی هستند که باز بودن را از بین میبرند، با ترغیب ناشران به گسترش و تقویت دیوار پرداختهای خود برای دفاع از آثارشان (و مدلهای کسب و کارشان) در برابر اسکرپرهای استثمارگر.
Common Crawl با ترویج ایدهای مشکوک و خوشایند دیگر، گفته است که اینترنت «جایی است که اطلاعات آزادانه زندگی میکند»، که پژواکی از شعار آزادیخواهانه فناوری «اطلاعات میخواهد آزاد باشد» است. در استفاده عمومی، این عبارت اغلب از بافت خود تهی میشود. این عبارت از اظهارنظری توسط استوارت برند، آیندهنگار فناوری، در سال ۱۹۸۴ میآید. در بحثی درباره نحوه شتابدهی کامپیوترها به انتشار اطلاعات، برند مشاهده کرد که «اطلاعات تا حدی میخواهد گران باشد، زیرا بسیار ارزشمند است.» اما به طور متناقض، او گفت: «اطلاعات تقریباً میخواهد آزاد باشد» زیرا کامپیوترها هزینه توزیع آن را بسیار پایین میآورند. به عبارت دیگر، این به آن معنا نیست که اطلاعات باید آزاد باشد—بلکه کامپیوترها تمایل دارند آن را آزاد جلوه دهند. با این حال، این ایده امروز توسط سازمانهای پنهانکاری مانند Common Crawl به کار گرفته میشود که انتخاب میکنند کدام اطلاعات «آزادانه زندگی کند» و کدام نه.
در گفتگوی ما، اسکرنتا اهمیت روزنامهها یا مجلات خاص را کماهمیت جلوه داد. او به من گفت که The Atlantic بخش حیاتی اینترنت نیست. او گفت: «هر آنچه شما میگویید، دیگران نیز در سایتهای دیگر میگویند.» در طول گفتگوی ما، اسکرنتا این برداشت را ایجاد کرد که احترام کمی برای نحوه کار گزارشنویسی اصلی دارد (یا آن را درک نمیکند).
با این حال، اسکرنتا برای آرشیو Common Crawl احترام فوقالعادهای قائل بود. او آن را به عنوان رکوردی از دستاوردهای تمدن ما میبیند. او به من گفت که میخواهد «آن را روی یک مکعب کریستالی بگذارد و روی ماه بچسباند»، تا «اگر زمین منفجر شود»، بیگانگان ممکن است بتوانند تاریخ ما را بازسازی کنند. او به من گفت: «The Economist و The Atlantic روی آن مکعب نخواهند بود. مقاله شما روی آن مکعب نخواهد بود. این مقاله.»