تصویرسازی توسط فرناندو کاپتو برای فوربس؛ گرافیک توسط Cherezoff/Getty Images
تصویرسازی توسط فرناندو کاپتو برای فوربس؛ گرافیک توسط Cherezoff/Getty Images

داده‌های جدید نشان می‌دهند OpenAI و Perplexity چه ضربه بدی به ناشران می‌زنند

شرکت‌هایی مانند OpenAI و Perplexity ادعاهای بزرگی مطرح کرده‌اند مبنی بر اینکه موتورهای جستجوی مبتنی بر هوش مصنو‌عی آن‌ها، که اطلاعات را از وب جمع‌آوری می‌کنند تا پاسخ‌های خلاصه شده تولید کنند، با هدایت خوانندگان بیشتر به سایت‌هایشان، منابع درآمدی جدیدی برای ناشران فراهم می‌کنند. اما واقعیت به شدت متفاوت است - بر اساس گزارش جدیدی از پلتفرم مجوز محتوا TollBit، که به طور اختصاصی با Forbes به اشتراک گذاشته شده است، موتورهای جستجوی هوش مصنوعی 96٪ ترافیک ارجاعی کمتری نسبت به جستجوی سنتی گوگل به سایت‌های خبری و وبلاگ‌ها ارسال می‌کنند. در همین حال، طبق این گزارش، خراشیدن وب‌سایت‌ها توسط توسعه‌دهندگان هوش مصنوعی در ماه‌های اخیر بیش از دو برابر شده است.

بر اساس این گزارش، OpenAI، Perplexity، Meta و سایر شرکت‌های هوش مصنوعی به طور متوسط 2 میلیون بار در سه ماهه چهارم سال گذشته وب‌سایت‌ها را خراشیده‌اند. این گزارش 160 وب‌سایت از جمله اخبار ملی و محلی، فناوری مصرف‌کننده و وبلاگ‌های خرید را در سه ماهه آخر سال 2024 تجزیه و تحلیل کرده است. هر صفحه به طور متوسط حدود هفت بار خراشیده شده است.

توشیت پانیگراهی، مدیرعامل TollBit به Forbes گفت: "ما شاهد هجوم ربات‌هایی هستیم که هر بار که کاربر سؤالی می‌پرسد، این سایت‌ها را می‌کوبند." "میزان تقاضا برای محتوای ناشر ناچیز نیست." TollBit، که با ناشران ادغام می‌شود تا خراشیدن را ردیابی کند و هر بار که شرکت‌های هوش مصنوعی این کار را انجام می‌دهند از آن‌ها هزینه دریافت کند، داده‌ها را از ناشرانی جمع‌آوری کرد که برای تجزیه و تحلیل در پلتفرم آن ثبت نام کرده‌اند، که به آن بینشی در مورد ترافیک و فعالیت خراشیدن در سایت‌های آن‌ها می‌دهد.

OpenAI اظهار نظری نکرد و Meta به درخواست برای اظهار نظر پاسخ نداد. سخنگوی Perplexity به ادعاهای خاص این گزارش نپرداخت، اما گفت که این شرکت به دستورالعمل‌های “robots.txt” احترام می‌گذارد، که به خزنده‌های وب دستور می‌دهد به کدام بخش‌های یک سایت اجازه دسترسی دارند.

“وقت آن است که نه بگوییم.”

فوریه گذشته، شرکت تحقیقاتی گارتنر پیش‌بینی کرد که ترافیک از موتورهای جستجوی سنتی تا سال 2026 تا 25 درصد کاهش یابد، که عمدتاً به دلیل ربات‌های گفتگوی هوش مصنوعی و سایر عوامل مجازی است. کسب‌وکارهایی که به ترافیک جستجو متکی هستند، قبلاً شروع به ضربه خوردن کرده‌اند. شرکت فناوری آموزشی Chegg اخیراً از گوگل شکایت کرده است و ادعا می‌کند که خلاصه‌های تولید شده توسط هوش مصنوعی این غول جستجو شامل محتوایی از وب‌سایت آن بدون انتساب است، که چشم‌ها را از سایت خود می‌گیرد و به درآمد رو به کاهش آن آسیب می‌رساند. ترافیک Chegg در ژانویه نسبت به سال قبل 49 درصد کاهش یافت، که کاهش شدیدی نسبت به کاهش 8 درصدی در سه ماهه دوم سال گذشته است، زمانی که گوگل خلاصه‌های هوش مصنوعی را منتشر کرد. ناتان شولتز، مدیرعامل Chegg گفت در یک کنفرانس تلفنی، این کاهش ترافیک Chegg را تا حدی تحت تاثیر قرار داده است که در حال بررسی خصوصی شدن یا تصاحب شدن است.

شولتز به Forbes گفت: "وقت آن است که نه بگوییم." وی گفت که گوگل و ناشران از دیرباز یک قرارداد اجتماعی برای ارسال کاربران به محتوای با کیفیت بالا داشته‌اند و نه فقط حفظ آن ترافیک در گوگل. "وقتی این قرارداد را می‌شکنید، این درست نیست."

ایان کراسبی، شریک شرکت حقوقی Susman Godfrey که نماینده Chegg است، گفت که این عمل در درازمدت به شرکت‌های جستجو مانند گوگل آسیب می‌رساند و اگر شرکت‌هایی مانند Chegg از کار بیفتند، منجر به "گل‌آلودگی هوش مصنوعی" می‌شود. وی گفت: "این تهدیدی برای اینترنت است."

گوگل شکایت Chegg را "بی‌اساس" خوانده است و ادعا می‌کند که سرویس جستجوی هوش مصنوعی آن ترافیک را به تنوع بیشتری از سایت‌ها ارسال می‌کند.

Forbes گزارش داد که سایت‌های رزرو سفر مانند Kayak و TripAdvisor نیز نگران خلاصه‌های جستجوی هوش مصنوعی گوگل هستند که ترافیک را کاهش می‌دهند. در همین حال، ناشران خبری علیه OpenAI و Perplexity به دلیل نقض ادعایی مالکیت معنوی خود اقدام قانونی کرده‌اند. (هر دو شرکت در حال مبارزه با این دادخواست‌ها هستند.)

توسعه‌دهندگان هوش مصنوعی از آنچه که عوامل کاربر نامیده می‌شوند برای خزیدن در وب و جمع‌آوری داده‌ها استفاده می‌کنند، اما بسیاری از آن‌ها به درستی ربات‌های خراشنده خود را شناسایی یا افشا نمی‌کنند، که این امر کشف و درک نحوه دسترسی شرکت‌های هوش مصنوعی به محتوای خود را برای صاحبان وب‌سایت دشوار می‌کند. پانیگراهی گفت به نظر می‌رسد برخی از آن‌ها، مانند گوگل، از همان ربات‌ها برای اهداف متعدد، از جمله فهرست‌بندی وب و خراشیدن داده‌ها برای ابزارهای هوش مصنوعی خود استفاده می‌کنند.

“برای ناشران بسیار سخت است که بخواهند گوگل را مسدود کنند. این می‌تواند بر سئوی آن‌ها تأثیر بگذارد.”

اولیویا جاسلین، یکی از بنیانگذاران TollBit گفت: "برای ناشران بسیار سخت است که بخواهند گوگل را مسدود کنند. این می‌تواند بر سئوی آن‌ها تأثیر بگذارد و برای ما غیرممکن است که دقیقا بفهمیم مورد استفاده ربات‌های آن‌ها چیست."

گوگل به درخواست برای اظهار نظر پاسخ نداد.

و سپس استارتاپ جستجوی هوش مصنوعی 9 میلیارد دلاری Perplexity وجود دارد. حتی زمانی که ناشران Perplexity را از دسترسی به سایت‌های خود مسدود می‌کنند، این استارتاپ هوش مصنوعی همچنان ترافیک ارجاعی را به آن‌ها باز می‌گرداند، که این امر نشان می‌دهد که همچنان به طور مخفیانه خراشیدن سایت‌ها به صورت زیرزمینی ادامه می‌دهد. در یک مثال، یک وب‌سایت ناشر را 500 بار خراشید اما بیش از 10000 ارجاع ارسال کرد. پانیگراهی گفت یکی از توضیحات این است که Perplexity از یک خزنده وب ناشناس برای دسترسی به سایت استفاده کرده است. Perplexity فقط گفت که به “robots.txt” احترام می‌گذارد.

سال گذشته، این استارتاپ پرهیاهو مورد انتقاد قرار گرفت به دلیل خراشیدن و بازنشر مقالات پولی، در برخی موارد شامل کلمات تقریباً یکسان، از رسانه‌های خبری مانند Forbes، CNBC و Bloomberg بدون انتساب مناسب. Forbes در ماه ژوئن دریافت که این شرکت همچنین به وبلاگ‌های تولید شده توسط هوش مصنوعی و پست‌های رسانه‌های اجتماعی با کیفیت پایین حاوی اطلاعات نادرست استناد می‌کند. در پاسخ به گزارش Forbes، آراویند سرینیواس، مدیرعامل این شرکت گفت که ویژگی بازنشر، به نام صفحات Perplexity، دارای “لبه‌های ناهموار” است. Forbes در ماه ژوئن نامه توقف و انصرافی را برای Perplexity ارسال کرد و آن را به نقض حق نسخه‌برداری متهم کرد.

در ماه اکتبر، نیویورک پست و داو جونز از Perplexity به دلیل نقض ادعایی حق نسخه‌برداری و نسبت دادن حقایق ساختگی به شرکت‌های رسانه‌ای شکایت کردند. در آن زمان، Perplexity گفت که این دادخواست منعکس کننده موضعی است که "اساساً کوته‌بینانه، غیرضروری و خودشکوفایی است."

در اوایل این ماه، یک استارتاپ هوش مصنوعی دیگر خود را در تیررس شرکت‌های رسانه‌ای یافت. گروهی از ناشران از جمله Condé Nast، Vox و The Atlantic علیه شرکت هوش مصنوعی سازمانی Cohere به دلیل خراشیدن ادعایی 4000 اثر دارای حق نسخه‌برداری از اینترنت و استفاده از آن‌ها برای آموزش مجموعه مدل‌های زبانی بزرگ خود شکایت کردند. (Forbes بخشی از این دادخواست بود.)

پانیگراهی گفت که خراشیدن بی‌رویه هوش مصنوعی فقط به ترافیک جستجو و درآمد ناشران آسیب نمی‌زند. با بازدید ربات‌های بیشتر و بیشتر از وب‌سایت‌ها برای خواندن و خراشیدن محتوای آن‌ها، آن‌ها همچنین میلیون‌ها دلار هزینه سرور را افزایش می‌دهند. پانیگراهی گفت با راه‌اندازی نمایندگان هوش مصنوعی تحقیقاتی توسط شرکت‌هایی مانند OpenAI و Perplexity که به طور مستقل از صدها سایت بازدید می‌کنند تا گزارش‌های عمیقی تولید کنند، این مشکل بدتر خواهد شد.

یک راه واضح برای پرداختن به این مشکل، مجوز مستقیم مقالات است. به عنوان مثال، آسوشیتدپرس، اکسل اسپرینگر و فایننشال تایمز همگی با OpenAI قراردادهای محتوایی منعقد کرده‌اند. اما یک کادر شرکت‌ها نیز ظهور کرده است تا مدل‌های اقتصادی جدیدی را برای ناشران در عصر هوش مصنوعی پیدا کند. به عنوان مثال، TollBit هر بار که شرکت‌های هوش مصنوعی محتوایی را از سایت یک ناشر خراش می‌دهند، از آن‌ها هزینه دریافت می‌کند. TollBit با 500 ناشر از جمله TIME، Hearst و Adweek کار می‌کند.

پانیگراهی گفت: "هوش مصنوعی مانند انسان‌ها نمی‌خواند. انسان‌ها روی یک پیوند کلیک می‌کنند، روی پیوند دوم کلیک می‌کنند و سپس به سراغ پیوند بعدی می‌روند." "هوش مصنوعی برای دریافت پاسخ خود 10 تا 20 پیوند را می‌خواند."