ابزار «تحقیقات عمیق» OpenAI: آیا برای دانشمندان مفید است؟

شرکت بزرگ فناوری OpenAI از ابزاری پولی به نام «تحقیقات عمیق» رونمایی کرده است که اطلاعات را از ده‌ها یا صدها وب‌سایت در یک گزارش استنادشده چند صفحه‌ای ترکیب می‌کند. این ابزار از ابزار مشابهی از گوگل که در دسامبر منتشر شد، پیروی می‌کند و به عنوان یک دستیار شخصی عمل می‌کند و معادل ساعت‌ها کار را در عرض ده‌ها دقیقه انجام می‌دهد.

بسیاری از دانشمندانی که آن را امتحان کرده‌اند، از توانایی آن در نوشتن بررسی‌های متون علمی یا مقالات مروری کامل و حتی شناسایی شکاف‌های دانش، تحت تأثیر قرار گرفته‌اند. دیگران کمتر مشتاق هستند. کایل کاباسارس، دانشمند داده در موسسه تحقیقات زیست‌محیطی منطقه خلیج در موفت فیلد، کالیفرنیا، در یک بررسی ویدیویی آنلاین می‌گوید: «اگر یک انسان این کار را انجام می‌داد، می‌گفتم: این نیاز به کار زیادی دارد.»

شرکت‌ها این ابزارها را به عنوان گامی به سوی «عوامل» هوش مصنوعی ارائه می‌دهند که می‌توانند وظایف پیچیده را انجام دهند. ناظران می‌گویند که ابزار تحقیقات عمیق OpenAI، که در 2 فوریه منتشر شد، قابل توجه است زیرا مهارت‌های استدلال بهبود یافته مدل زبان بزرگ o3 (LLM) را با توانایی جستجو در اینترنت ترکیب می‌کند. گوگل می‌گوید که ابزار تحقیقات عمیق آن، در حال حاضر، بر اساس Gemini 1.5 Pro است، نه بر اساس مدل استدلال پیشرو خود، 2.0 Flash Thinking.

نوشتن بررسی

بسیاری از کاربران تحت تأثیر هر دو ابزار قرار گرفته‌اند. اندرو وایت، شیمیدان و متخصص هوش مصنوعی FutureHouse، یک استارت‌آپ در سانفرانسیسکو، کالیفرنیا، می‌گوید که محصول گوگل «واقعاً از مزایای گوگل در جستجو و محاسبات استفاده می‌کند» تا کاربران را به سرعت در مورد یک موضوع مطلع کند، در حالی که مهارت‌های استدلال o3 به گزارش‌های OpenAI پیچیدگی می‌بخشد.

دریا اونوتماز، ایمونولوژیست در آزمایشگاه جکسون در فارمینگتون، کانکتیکات، که به لطف OpenAI برای تحقیقات پزشکی به ChatGPT Pro دسترسی رایگان دارد، می‌گوید گزارش‌های تحقیقات عمیق OpenAI «بسیار چشمگیر»، «قابل اعتماد» و به خوبی یا بهتر از مقالات مروری منتشر شده هستند. «من فکر می‌کنم نوشتن بررسی‌ها منسوخ می‌شود.»

وایت پیش‌بینی می‌کند که از سیستم‌های هوش مصنوعی مانند اینها می‌توان برای به‌روزرسانی بررسی‌های نوشته شده توسط انسان استفاده کرد. «بررسی‌های معتبر را نمی‌توان [توسط انسان] هر 6 ماه به‌روزرسانی کرد.»

اما بسیاری هشدار می‌دهند که همه ابزارهای مبتنی بر LLM گاهی اوقات نادرست یا گمراه‌کننده هستند. وب‌سایت OpenAI اعتراف می‌کند که ابزار آن «هنوز در مراحل اولیه است و محدودیت‌هایی دارد»: می‌تواند استنادها را اشتباه بگیرد، حقایق را توهم بزند، در تشخیص اطلاعات معتبر از شایعات ناکام بماند و عدم قطعیت خود را به درستی منتقل نکند. این شرکت انتظار دارد که این مسائل با استفاده و زمان بیشتر بهبود یابد. تحقیقات عمیق گوگل دارای سلب مسئولیتی است که به سادگی می‌خواند «جمینی می‌تواند اشتباه کند، بنابراین دوباره بررسی کنید».

ماریو کرن، رهبر آزمایشگاه دانشمند مصنوعی در موسسه ماکس پلانک برای علم نور در ارلانگن، آلمان، خاطرنشان می‌کند که این ابزارها به این معنا «تحقیق» نمی‌کنند که دانشمندان معمولاً از این اصطلاح استفاده می‌کنند. او می‌گوید دانشمندان سال‌ها را صرف تحقیق در مورد یک موضوع واحد و تکامل ایده‌های جدید می‌کنند. کرن می‌گوید: «این توانایی هنوز [توسط هوش مصنوعی] نشان داده نشده است.» و می‌افزاید: «شاید به زودی این اتفاق بیفتد، این روزها هیچ‌کس نمی‌داند.»

نتایج آزمون

OpenAI ابزار تحقیقات عمیق خود را از طریق مراحل خود قرار داده است. به عنوان مثال، در امتحان نهایی بشریت (HLE)، یک آزمون معیار 3000 سؤالی که دانش سطح کارشناسی را در موضوعات مختلف از زبان‌شناسی گرفته تا علم پوشش می‌دهد و طوری طراحی شده بود که برای LLMها بسیار سخت‌تر از سایر آزمون‌های رایج باشد که اکنون توسط هوش مصنوعی شکست داده شده‌اند، مانند GPQA، عملکرد خوبی داشت. محصول OpenAI با 26.6٪ در سؤالات فقط متنی HLE در صدر نمودار قرار دارد.

این شرکت همچنین سیستم خود را در برابر معیار GAIA¹ آزمایش کرد، که در سال 2023 توسعه یافت تا هوش مصنوعی را که از استدلال چند مرحله‌ای و مرور وب برای پاسخ دادن به سؤالات استفاده می‌کند، آزمایش کند. تابلوی امتیازات عمومی GAIA توسط یک عامل از شرکت جهانی H2O.ai که توسط Claude 3.5 Sonnet از شرکت سانفرانسیسکویی Anthropic تامین می‌شود، با امتیاز سخت‌ترین سطح 40.82٪ هدایت می‌شود. تحقیقات عمیق OpenAI امتیاز 58.03٪ را کسب کرد.

گوگل می‌گوید که هیچ نتیجه معیار برای به اشتراک گذاشتن برای ابزار خود ندارد. وایت می‌گوید، معیارهای انتخاب شده توسط OpenAI به سؤالاتی متکی هستند که پاسخ‌های کوتاه و قابل تأیید دارند، که ممکن است برای ابزارهایی که پاسخ‌های طولانی بدون پاسخ صحیح مشخص تولید می‌کنند، مناسب نباشند. او می‌گوید: «من فکر می‌کنم این معیارها به نفع معیارهای عملکردی محو می‌شوند»، مانند ارزیابی‌های انسانی از کیفیت و سودمندی مقالات. به عنوان مثال، وایت قبلاً روی مقاله‌ای کار کرده بود که در آن کارشناسان انسانی به طور کورکورانه اظهارات گرفته شده از خلاصه‌های علمی به سبک ویکی‌پدیا که توسط هوش مصنوعی نوشته شده و توسط انسان نوشته شده بود را درجه‌بندی کردند. هوش مصنوعی برنده شد².

هر دو محصول محدودیت‌های دیگری دارند. هیچ‌کدام نمی‌توانند اطلاعات پولی را استخراج کنند، که شامل بسیاری از مقالات علمی می‌شود. اونوتماز، که طرفدار علم باز است، می‌گوید: «این یک مسئله اساسی و بزرگ است.» او می‌گوید: «دسترسی به این دانش مهم‌تر از همیشه است.» برخی از دانشمندان در انجمن‌های آنلاین پیشنهاد کرده‌اند که باید بتوانند رمزهای عبور مجله خود را به ابزارهای هوش مصنوعی وصل کنند و در مورد استفاده از عامل «اپراتور» جدید OpenAI برای انجام این کار حدس و گمان زده‌اند. سام آلتمن، مدیرعامل OpenAI، در پاسخ در توییتر نوشته است: «ما باید در اینجا چیزی را حل کنیم.»

doi: https://doi.org/10.1038/d41586-025-00377-9

https://www.nature.com/articles/d41586-025-00377-9