تصویرگری: شیرا اینبار
تصویرگری: شیرا اینبار

چرا هوش مصنوعی نمی‌تواند ایمیل‌های من را مدیریت کند؟

ربات‌های چت می‌توانند آزمون تورینگ را پشت سر بگذارند – اما هنوز نمی‌توانند صندوق ورودی ایمیل یک کارمند اداری را مدیریت کنند.

برای ستون «پرسش‌های باز» این هفته، کَل نیوپورت به جای جاشوا روثمن می‌نویسد.

یک ماه پیش، یک صبح تصمیم گرفتم هوش مصنوعی را برای یک مشکل جدی امتحان کنم: صندوق ورودی ایمیلم. در بیست سال گذشته، آدرس ایمیلی که برای پروژه‌های نویسندگی‌ام استفاده می‌کنم، توسط تعداد سرسام‌آوری از شرکت‌های روابط عمومی، کلاهبرداران و افراد غریبه با درخواست‌های نامتعارف کشف شده است. در آن روز خاص، من هشتصد و بیست و نه پیام داشتم. (برخی از متخصصان دانش‌محور ممکن است این را کاملاً خوب بدانند، اما برای من استرس زیادی ایجاد می‌کرد.) از پنجاه ایمیل اخیر، اکثرشان مزخرف بودند، اما حدود هشت مورد واقعاً جالب توجه بودند، که نشان‌دهنده نرخ موفقیت شانزده درصدی بود – که فقط کافی بود تا نگران از دست دادن چیز مهمی باشم.

Cora یکی از بسیاری از برنامه‌های تحت وب است که مستقیماً با حساب‌های Gmail کاربران تعامل دارد و پیام‌ها را به نمایندگی از کاربر می‌خواند، برچسب‌گذاری و بایگانی می‌کند. وب‌سایت این برنامه می‌گوید: «صندوق ورودی خود را به Cora بسپارید و زندگی‌تان را پس بگیرید.» Cora قصد دارد با استفاده از هوش مصنوعی، کاربران را از پیام‌هایی که واقعاً نیازی به پاسخ ندارند، محافظت کند. بقیه پیام‌ها بایگانی شده و در یک خلاصه خوش‌فرمت، دو بار در روز ارائه می‌شوند. به گفته سازندگان Cora، نود درصد از ایمیل‌های ما «نیازی به پاسخ ندارند. پس چرا باید آنها را یکی یکی به ترتیبی که می‌رسند بخوانیم؟»

در طول فرآیند راه‌اندازی، Cora دویست ایمیل اخیر من را خواند تا بفهمد من چه کسی هستم، که به آن کمک می‌کند پیام‌های مهم برای من را شناسایی کند. این برنامه متوجه شد که من برای دانشگاه جرج‌تاون کار می‌کنم و یک نویسنده هستم (هر دو صحیح)، و کارم بر «مینیمالیسم دیجیتال و پژوهش بهره‌وری» تمرکز دارد. (من همچنین یک منتقد فناوری و کارشناس اخلاق دیجیتال هستم، که این را متوجه نشد.) اطلاعات کارت اعتباری‌ام را وارد کردم؛ این سرویس ماهیانه بیست و پنج دلار هزینه دارد. برنامه به من گفت: «Cora در حال آماده‌سازی گزارش بعدی شماست. وقتی آماده شد، یک ایمیل برای شما ارسال خواهد کرد.» برای اینکه Cora با شروعی تازه کار کند، هشتصد و بیست و نه پیام بی‌جوابم را بایگانی کردم – از هر کسی که پاسخی از من دریافت نکرد، متاسفم – و تصمیم گرفتم صبح روز بعد دوباره چک کنم.

آزمایش من فراتر از بیرون کردن شیاطین از صندوق ورودی ایمیلم بود. در سال‌های مطالعه و نوشتن در مورد فناوری و کار، به این باور رسیده‌ام که وظیفه به ظاهر ساده چک کردن ایمیل – آن ضرباهنگ معمولی و روزمره که فرهنگ اداری دیجیتال با آن پیش می‌رود – چیزی عمیق‌تر است. در سال ۱۹۵۰، آلن تورینگ در مقاله‌ای مهم استدلال کرد که پاسخ به این پرسش که «آیا ماشین‌ها می‌توانند فکر کنند؟» را می‌توان با یک «بازی تقلید» داد که در آن یک کامپیوتر تلاش می‌کند یک بازجو را فریب دهد تا باور کند انسانی است. تورینگ استدلال کرد که اگر ماشین موفق شود، می‌توان آن را واقعاً هوشمند در نظر گرفت. هفتاد و پنج سال بعد، روان بودن ربات‌های چت، بازی تقلید اصلی را کمتر ترسناک جلوه می‌دهد. با این حال، هیچ ماشینی هنوز بازی صندوق ورودی را تسخیر نکرده است. وقتی از نزدیک‌تر به آنچه در این کار سیزیفی نهفته است نگاه می‌کنید، یک ایده جذاب به ذهن می‌آید: چه می‌شود اگر حل مشکل ایمیل، آزمون تورینگی باشد که اکنون به آن نیاز داریم؟

به طور معمول، درگیر شدن با ایمیل شامل دسته‌بندی پیام‌ها به لایه‌های مختلف پیچیدگی و اهمیت است. کم‌عمق‌ترین لایه شامل هرزنامه‌ها، ایمیل‌های تبلیغاتی و اشتراک‌های خبرنامه‌ای است که مدت‌هاست فراموش شده‌اند و می‌توانید با اطمینان آنها را حذف کنید. لایه بعدی شامل پیام‌هایی است که نیاز به توجه شما دارند اما می‌توان با یک پاسخ ساده به آنها بسنده کرد: «فهمیدم!» «متشکرم.» «ساعت ۴ است. می‌بینمت!» این ایمیل‌ها می‌توانند حس لذت‌بخش بهره‌وری را با حداقل تلاش ذهنی ایجاد کنند. اما تا زمانی که پاسخ داده نشوند، می‌توانند اضطراب خزنده نیز ایجاد کنند، گویی جمعی از نامه‌نگاران با بی‌صبری منتظر توجه شما هستند.

عمیق‌ترین لایه از پیام‌هایی تشکیل شده است که خواندن آنها سریع است اما نیاز به تفکر قابل توجهی دارند. این ایمیل فرضی را در نظر بگیرید:

«سلام کَل! من برادر جان دو هستم. سال‌هاست که کتاب‌های شما را می‌خوانم، و به همین دلیل اخیراً از اینکه او شما را می‌شناسد بسیار هیجان‌زده شدم! به هر حال، من در حال کار بر روی یک استارتاپ فناوری جدید هستم که از اصول کتاب شما با عنوان «Deep Work» استفاده می‌کند تا تقویم دیجیتال شما را بازاندیشی کند. دوست دارم هفته آینده که در شهر هستم، قهوه‌ای با شما بنوشم. کدام روزها برای شما بهتر است؟»

قبل از اینکه بتوانم پاسخ دهم، باید پیامدهای اجتماعی و عملی این درخواست را ارزیابی کنم. آیا جان دو به اندازه کافی برای من مهم است که بخواهم لطفی در حق برادرش بکنم؟ آیا این احتمال وجود دارد که استارتاپ او برای من جالب باشد – از آن دست چیزهایی که خوشحال خواهم شد در شکل‌گیری آن کمک کرده‌ام؟ اگر تصمیم به ملاقات با او بگیرم، چه زمانی و کجا را پیشنهاد دهم؟ اگر برادر جان دارای موقعیت بالاتری نسبت به من باشد – شاید او یک کارآفرین شناخته شده باشد – ممکن است نیاز باشد با برنامه شلوغ او سازگار شوم، اما اگر او جوانی باشد که به دنبال راهنمایی است، می‌تواند برنامه خود را با من هماهنگ کند.

در نهایت، پاسخی که ارسال می‌کنم ممکن است تنها شامل چند کلمه باشد، اما نتیجه یک توالی ظریف از تشخیص‌ها و تصمیم‌گیری‌های سریع خواهد بود. این فعالیت واحد به طور قابل بحثی بسیاری از مهارت‌های شناختی – فیلتر کردن، رمزگشایی، برنامه‌ریزی، تحلیل – را که برای موفقیت در تقریباً هر نوع کار دانش‌محور لازم است، در خود جای می‌دهد.

صبح روز بعد از فعال‌سازی Cora، با کمی دلهره وارد حساب Gmail خود شدم. معمولاً، ممکن بود سی یا چهل پیام درهم و برهم ببینم، اما اکنون تنها پنج پیام را یافتم که نیاز به توجه من داشتند، که یکی از آنها گزارش Cora بود. هرچند این لحظه ممکن است خسته‌کننده به نظر برسد، اما مطمئن نیستم که هوش مصنوعی هرگز من را تا این حد هیجان‌زده نکرده باشد.

این گزارش نشان داد که برنامه بیست و نه ایمیل را از طرف من بایگانی کرده است و تصمیماتش کاملاً خوب به نظر می‌رسید – یک بررسی سریع نشان داد که همه به جز دو مورد واقعاً قابل حذف بودند. (می‌توانستم پیام‌های اشتباه فیلتر شده – که هر دو یادداشت‌هایی از خوانندگانم بودند – را مستقیماً از صفحه وب گزارش بخوانم و به آنها پاسخ دهم.) در میان چند پیام باقی‌مانده در صندوق ورودی من توسط Cora، برنامه چندین مورد را به عنوان لایه دوم شناسایی کرده بود و پیش‌نویس خامی از پاسخ‌های احتمالی را ارائه داد. در پاسخ به خواننده‌ای که در مورد وب‌سایت جدیدش بازخورد می‌خواست، Cora پیشنهاد داد: «ممنون از ارتباط شما، و از کلمات محبت‌آمیزتان در مورد کار من قدردانی می‌کنم. متاسفانه، در حال حاضر قادر به بررسی وب‌سایت نیستم.» واکنش من به چنین درخواست‌هایی شاید تندتر باشد – ترجیح می‌دهم اصلاً پاسخ ندهم – اما از تلاش برنامه قدردانی کردم.

آنچه Cora برای حل آن تلاش نکرد، پیام‌های لایه سوم بودند که نیاز به تفکر و اقدام پیچیده‌تری داشتند. برای آزمایش، ایمیل جان دو را از یک آدرس دیگر برای خودم فرستادم؛ Cora آن را در صندوق ورودی من بدون دست‌خوردگی رها کرد تا خودم آن را مدیریت کنم. در واقع، هیچ‌یک از دیگر ابزارهای ایمیل مبتنی بر هوش مصنوعی که بررسی کردم، از جمله Superhuman، Microsoft Copilot برای Outlook، و SaneBox، تلاشی برای پاسخ به این نوع ایمیل‌های غیرپیش‌پاافتاده نمی‌کنند. فرض بر این است که آنها به اندازه کافی به پیروزی در بازی صندوق ورودی نزدیک نیستند که خطر امتحان کردن را بپذیرند.

پس چرا هوش مصنوعی نمی‌تواند به مکاتبات دشوارتر پاسخ خودکار بدهد؟ یک مانع اصلی نحوه ساخت آنهاست. کیران کلاسسن، مدیر کل و توسعه‌دهنده اصلی Cora، به من گفت که این برنامه را می‌توان به دو جزء تقسیم کرد: یک برنامه کنترل استاندارد که به صندوق ورودی دسترسی پیدا کرده و پیام‌ها را دستکاری می‌کند، و مجموعه‌ای از مدل‌های زبان بزرگ تجاری که برنامه می‌تواند در صورت نیاز به تحلیل پیچیده‌تر با آنها مشورت کند. به عنوان مثال، زمانی که Cora نیاز دارد تصمیم بگیرد که آیا یک پیام خاص برای یک کاربر مهم است یا خیر، برنامه کنترل یک درخواست متنی ایجاد کرده و آن را به یک L.L.M. ارسال می‌کند. کلاسسن گفت: «هوش کاملاً در مدل زبان زندگی می‌کند.» این بدان معناست که یک ابزار هوش مصنوعی مانند Cora یک جعبه سیاه غیرقابل فهم که در حال یادگیری و توسعه توانایی‌های جدید است، نیست – بلکه بیشتر شبیه یک لایه نرم‌افزاری سفارشی است که در استفاده از ChatGPT مهارت دارد.

این تقسیم کار مزایای واضحی دارد. Cora می‌تواند از مدل‌های زبان پیشرفته استفاده کند، بدون اینکه برای ساخت یکی از آنها هزینه‌های هنگفتی صرف کند. همچنین انعطاف‌پذیری را نیز فراهم می‌کند. برای تغییر نحوه فیلتر کردن پیام‌ها توسط Cora، نیازی به به‌روزرسانی برنامه‌نویسی آن نیست، بلکه باید درخواست‌هایی را که به مدل زبان شخص ثالث ارسال می‌کند، تغییر دهید. در تنظیمات Cora من، می‌توانم دستورالعمل‌های دقیقی را که برنامه کنترل به مدل Gemini Flash گوگل ارسال می‌کند تا پیامی را ارزیابی کند، بخوانم:

ایمیل‌هایی که نیاز به بررسی شخصی کاربر دارند باید در صندوق ورودی بمانند؛ مثال‌ها: پاسخ‌های خواننده، فرصت‌های رسانه‌ای/سخنرانی، همکاری‌های مرتبط با کتاب، درخواست‌های بتاخوان، تغییرات امنیتی/حساب، و اعلان‌های فنی.

اگر تصمیم می‌گرفتم که «اعلان‌های فنی» دیگر مهم نیستند، می‌توانستم آن مثال را حذف کنم؛ اگر تصمیم می‌گرفتم که می‌خواهم خبرنامه‌های مثبت ایمیلی در مورد تیم بیسبال Washington Nationals را بخوانم، می‌توانستم چند کلمه اضافه کنم که به Cora دستور دهد آنها را ارسال کند. (متاسفانه در حال حاضر، این دستور ممکن است زیاد مورد استفاده قرار نگیرد.) کلاسسن گفت: «شما در واقع می‌توانید رفتارهای جدید را از طریق مکالمه به آن بیاموزید، به جای اینکه کد را تغییر دهید.»

اما وابستگی به L.L.M.های تجاری یک مانع نیز ایجاد می‌کند: آنها بر اساس اطلاعات خاص مربوط به من، شغل من یا ترجیحات حرفه‌ای من آموزش ندیده‌اند. برای اینکه Cora به برادر جان دو پاسخ دهد، باید تمام اطلاعات مرتبط را بفهمد – اینکه من چه کسی هستم، چه کسانی را می‌شناسم، چگونه در مورد این روابط فکر می‌کنم، به چه چیزهایی علاقه دارم، ترجیحاتم برای مکان‌ها و زمان‌های ملاقات، و در دسترس بودن برنامه‌های آینده‌ام. قرار دادن همه اینها در یک درخواست برای مدل – پیش‌نیازی برای دریافت یک پاسخ رضایت‌بخش – یک چالش به طرز شگفت‌انگیزی پیچیده خواهد بود.

در کتابی در سال ۱۹۶۶ با عنوان «The Tacit Dimension»، مایکل پولانی، همه‌چیزدان، استدلال کرد که تصمیمات ما در زندگی و کار به شدت به متن نانوشته و مفروضات ضمنی وابسته است که منحصر به تجربیات خودمان هستند. آنچه پولانی به طور معروف «دانش ضمنی» نامید، ظریف‌تر و دشوارتر از آن است که بتوانیم آن را بیان کنیم. او نوشت: «من دانش بشری را با شروع از این واقعیت بازنگری خواهم کرد که ما می‌توانیم بیشتر از آنچه می‌توانیم بگوییم، بدانیم.» این دقیقاً به همین دلیل است که ابزارهای ایمیل مبتنی بر هوش مصنوعی کنونی نمی‌توانند به طور قابل اعتمادی به تمام پیام‌های ما پاسخ دهند. حتی با وجود اینکه مدل‌های زبان در بسیاری از چیزها به طور فوق‌العاده‌ای آگاه هستند، اما از حجم عظیمی از دانش ضمنی که در زندگی و دفاتر ما تنیده شده، بی‌اطلاع هستند – که مانع از آن می‌شود که هر مدل تجاری بتواند به طور قابل اعتمادی بفهمد که آیا باید به آن دعوت به قهوه «بله» بگوید یا خیر. مهم نیست ماشین‌هایمان را چقدر باهوش بسازیم، اگر نتوانیم دقیقاً آنچه را که می‌خواهیم به آنها توضیح دهیم.

اینکه ابزارهای هوش مصنوعی به این زودی‌ها بعید است ایمیل را خودکار کنند، لزوماً خبر بدی نیست. ماشینی که بتواند به طور مداوم در بازی صندوق ورودی پیروز شود، ماشینی است که ممکن است بسیاری از متخصصان دانش‌محور را بی‌کار کند. اما حتی با توجه به محدودیت‌های فعلی‌شان، برنامه‌های ایمیل ممکن است هنوز فراتر از Cora و امثال آن تکامل یابند. سرینیواس رائو، یک توسعه‌دهنده مستقل هوش مصنوعی، نمونه اولیه OrchestrateInbox را به من نشان داد، یک دستیار ایمیل جدید که از فناوری مدل زبان تجاری برای حذف کامل صندوق ورودی استفاده می‌کند و یک «گزارش هوشمند» در مورد محتوای پیام‌ها به کاربر ارائه می‌دهد.

در دمویی که دیدم، گزارش با یک «خلاصه اجرایی» آغاز شد، که (در میان چیزهای دیگر) اشاره کرد که رائو «چندین پیشنهاد از بنیانگذاران، تبلیغ‌کنندگان و مشاوران استراتژیک دریافت کرده است.» به دنبال آن فهرستی شماره‌گذاری شده از افرادی که نیاز به پاسخ داشتند، همراه با یک توضیح یک جمله‌ای از «آنچه می‌خواهند» ارائه شد. به عنوان مثال، فردی به نام ستا ز. «پیشنهاد یک کتاب برای پوشش یا بررسی احتمالی پادکست» را ارائه می‌داد. به جای دستکاری پیام‌های جداگانه، کاربران قرار است با این ابزار با استفاده از زبان طبیعی، همانطور که با یک ربات چت انجام می‌دهند، تعامل داشته باشند. شاید از من خواسته شود اطلاعات بیشتری در مورد کتاب ارائه دهم – و سپس، اگر علاقه‌ای نداشته باشم، می‌توانم به ابزار بگویم که از طرف من رد کند. تمام اینها در چیزی شبیه به یک رابط چت انجام می‌شود؛ کاربر هرگز مجبور نیست پیام‌های زیرین را ببیند.

چه دیدگاه رائو گسترش یابد یا خیر، درس بزرگ‌تری در اینجاست. اگرچه ابزارهای ایمیل هوش مصنوعی احتمالاً به دلیل مشکل دانش ضمنی محدود خواهند ماند، اما همچنان می‌توانند تأثیر عمیقی بر رابطه ما با یک فناوری ارتباطی اساسی داشته باشند. دن شیپر، بنیانگذار و مدیرعامل شرکتی که Cora را تولید کرد، به من گفت که سؤال مهم برای لحظه کنونی ما این نیست که «آیا من هنوز ایمیل انجام می‌دهم؟» بلکه این است که «ایمیل من چقدر با گذشته متفاوت به نظر می‌رسد؟» اخیراً، از یک سفر چهار روزه برگشتم و صندوق ورودی ایمیل مدیریت‌شده توسط Cora خود را باز کردم. فقط بیست و چهار ایمیل جدید منتظر توجه من بودند که هر کدام از آنها مرتبط بودند. هنوز از این پاکیزگی نوظهور هیجان‌زده بودم. به زودی، یک فکر جدید، با کمی ناراحتی، به ذهنم خطور کرد: این عالی است – اما چگونه می‌توانیم آن را بهتر کنیم؟ من بی‌صبرانه منتظر اتفاقات بعدی هستم.