شرکت بزرگ فناوری OpenAI از ابزاری پولی به نام «تحقیقات عمیق» رونمایی کرده است که اطلاعات را از دهها یا صدها وبسایت در یک گزارش استنادشده چند صفحهای ترکیب میکند. این ابزار از ابزار مشابهی از گوگل که در دسامبر منتشر شد، پیروی میکند و به عنوان یک دستیار شخصی عمل میکند و معادل ساعتها کار را در عرض دهها دقیقه انجام میدهد.
بسیاری از دانشمندانی که آن را امتحان کردهاند، از توانایی آن در نوشتن بررسیهای متون علمی یا مقالات مروری کامل و حتی شناسایی شکافهای دانش، تحت تأثیر قرار گرفتهاند. دیگران کمتر مشتاق هستند. کایل کاباسارس، دانشمند داده در موسسه تحقیقات زیستمحیطی منطقه خلیج در موفت فیلد، کالیفرنیا، در یک بررسی ویدیویی آنلاین میگوید: «اگر یک انسان این کار را انجام میداد، میگفتم: این نیاز به کار زیادی دارد.»
شرکتها این ابزارها را به عنوان گامی به سوی «عوامل» هوش مصنوعی ارائه میدهند که میتوانند وظایف پیچیده را انجام دهند. ناظران میگویند که ابزار تحقیقات عمیق OpenAI، که در 2 فوریه منتشر شد، قابل توجه است زیرا مهارتهای استدلال بهبود یافته مدل زبان بزرگ o3 (LLM) را با توانایی جستجو در اینترنت ترکیب میکند. گوگل میگوید که ابزار تحقیقات عمیق آن، در حال حاضر، بر اساس Gemini 1.5 Pro است، نه بر اساس مدل استدلال پیشرو خود، 2.0 Flash Thinking.
نوشتن بررسی
بسیاری از کاربران تحت تأثیر هر دو ابزار قرار گرفتهاند. اندرو وایت، شیمیدان و متخصص هوش مصنوعی FutureHouse، یک استارتآپ در سانفرانسیسکو، کالیفرنیا، میگوید که محصول گوگل «واقعاً از مزایای گوگل در جستجو و محاسبات استفاده میکند» تا کاربران را به سرعت در مورد یک موضوع مطلع کند، در حالی که مهارتهای استدلال o3 به گزارشهای OpenAI پیچیدگی میبخشد.
دریا اونوتماز، ایمونولوژیست در آزمایشگاه جکسون در فارمینگتون، کانکتیکات، که به لطف OpenAI برای تحقیقات پزشکی به ChatGPT Pro دسترسی رایگان دارد، میگوید گزارشهای تحقیقات عمیق OpenAI «بسیار چشمگیر»، «قابل اعتماد» و به خوبی یا بهتر از مقالات مروری منتشر شده هستند. «من فکر میکنم نوشتن بررسیها منسوخ میشود.»
وایت پیشبینی میکند که از سیستمهای هوش مصنوعی مانند اینها میتوان برای بهروزرسانی بررسیهای نوشته شده توسط انسان استفاده کرد. «بررسیهای معتبر را نمیتوان [توسط انسان] هر 6 ماه بهروزرسانی کرد.»
اما بسیاری هشدار میدهند که همه ابزارهای مبتنی بر LLM گاهی اوقات نادرست یا گمراهکننده هستند. وبسایت OpenAI اعتراف میکند که ابزار آن «هنوز در مراحل اولیه است و محدودیتهایی دارد»: میتواند استنادها را اشتباه بگیرد، حقایق را توهم بزند، در تشخیص اطلاعات معتبر از شایعات ناکام بماند و عدم قطعیت خود را به درستی منتقل نکند. این شرکت انتظار دارد که این مسائل با استفاده و زمان بیشتر بهبود یابد. تحقیقات عمیق گوگل دارای سلب مسئولیتی است که به سادگی میخواند «جمینی میتواند اشتباه کند، بنابراین دوباره بررسی کنید».
ماریو کرن، رهبر آزمایشگاه دانشمند مصنوعی در موسسه ماکس پلانک برای علم نور در ارلانگن، آلمان، خاطرنشان میکند که این ابزارها به این معنا «تحقیق» نمیکنند که دانشمندان معمولاً از این اصطلاح استفاده میکنند. او میگوید دانشمندان سالها را صرف تحقیق در مورد یک موضوع واحد و تکامل ایدههای جدید میکنند. کرن میگوید: «این توانایی هنوز [توسط هوش مصنوعی] نشان داده نشده است.» و میافزاید: «شاید به زودی این اتفاق بیفتد، این روزها هیچکس نمیداند.»
نتایج آزمون
OpenAI ابزار تحقیقات عمیق خود را از طریق مراحل خود قرار داده است. به عنوان مثال، در امتحان نهایی بشریت (HLE)، یک آزمون معیار 3000 سؤالی که دانش سطح کارشناسی را در موضوعات مختلف از زبانشناسی گرفته تا علم پوشش میدهد و طوری طراحی شده بود که برای LLMها بسیار سختتر از سایر آزمونهای رایج باشد که اکنون توسط هوش مصنوعی شکست داده شدهاند، مانند GPQA، عملکرد خوبی داشت. محصول OpenAI با 26.6٪ در سؤالات فقط متنی HLE در صدر نمودار قرار دارد.
این شرکت همچنین سیستم خود را در برابر معیار GAIA1 آزمایش کرد، که در سال 2023 توسعه یافت تا هوش مصنوعی را که از استدلال چند مرحلهای و مرور وب برای پاسخ دادن به سؤالات استفاده میکند، آزمایش کند. تابلوی امتیازات عمومی GAIA توسط یک عامل از شرکت جهانی H2O.ai که توسط Claude 3.5 Sonnet از شرکت سانفرانسیسکویی Anthropic تامین میشود، با امتیاز سختترین سطح 40.82٪ هدایت میشود. تحقیقات عمیق OpenAI امتیاز 58.03٪ را کسب کرد.
گوگل میگوید که هیچ نتیجه معیار برای به اشتراک گذاشتن برای ابزار خود ندارد. وایت میگوید، معیارهای انتخاب شده توسط OpenAI به سؤالاتی متکی هستند که پاسخهای کوتاه و قابل تأیید دارند، که ممکن است برای ابزارهایی که پاسخهای طولانی بدون پاسخ صحیح مشخص تولید میکنند، مناسب نباشند. او میگوید: «من فکر میکنم این معیارها به نفع معیارهای عملکردی محو میشوند»، مانند ارزیابیهای انسانی از کیفیت و سودمندی مقالات. به عنوان مثال، وایت قبلاً روی مقالهای کار کرده بود که در آن کارشناسان انسانی به طور کورکورانه اظهارات گرفته شده از خلاصههای علمی به سبک ویکیپدیا که توسط هوش مصنوعی نوشته شده و توسط انسان نوشته شده بود را درجهبندی کردند. هوش مصنوعی برنده شد2.
هر دو محصول محدودیتهای دیگری دارند. هیچکدام نمیتوانند اطلاعات پولی را استخراج کنند، که شامل بسیاری از مقالات علمی میشود. اونوتماز، که طرفدار علم باز است، میگوید: «این یک مسئله اساسی و بزرگ است.» او میگوید: «دسترسی به این دانش مهمتر از همیشه است.» برخی از دانشمندان در انجمنهای آنلاین پیشنهاد کردهاند که باید بتوانند رمزهای عبور مجله خود را به ابزارهای هوش مصنوعی وصل کنند و در مورد استفاده از عامل «اپراتور» جدید OpenAI برای انجام این کار حدس و گمان زدهاند. سام آلتمن، مدیرعامل OpenAI، در پاسخ در توییتر نوشته است: «ما باید در اینجا چیزی را حل کنیم.»
doi: https://doi.org/10.1038/d41586-025-00377-9