(تصویرسازی توسط یوهانا والدردورف برای واشنگتن پست)
(تصویرسازی توسط یوهانا والدردورف برای واشنگتن پست)

از ۵ دستیار هوش مصنوعی خواستیم ایمیل‌های دشوار بنویسند. یکی برنده آشکار بود.

یک هیئت از کارشناسان ارتباطات به ما کمک کردند تا میزان مهارت ابزارهای هوش مصنوعی ChatGPT، Claude، Copilot، DeepSeek و Gemini را در نوشتن ایمیل آزمایش کنیم.

اکنون دستیاران هوش مصنوعی زیادی وجود دارند. اما تنها یکی می‌تواند به خوبی شما ایمیل بنویسد.

برای اینکه بفهمم کدام دستیار هوش مصنوعی ارزش وقت و پول شما را دارد، یک رقابت قدیمی ترتیب دادم. از پنج ربات خواستم پیش‌نویس پنج نوع ایمیل کاری و شخصی دشوار را تهیه کنند. سپس یک هیئت برجسته از کارشناسان ارتباطات را گرد هم آوردم تا همه ایمیل‌ها را - بدون دانستن نویسنده - قضاوت کنند.

برای اینکه ببینم آیا ایمیل‌های ربات‌ها از ایمیل‌های انسانی قابل تشخیص هستند یا خیر، از داوران خواستم ایمیل‌های نوشته شده توسط خودم را نیز ارزیابی کنند.

پس از صد و پنجاه ارزیابی ایمیل، یک هوش مصنوعی عملکرد بهتری نسبت به این انسان داشت. اما داوران همچنین فکر می‌کردند یکی از محبوب‌ترین هوش‌های مصنوعی در حال حاضر آنقدر رباتیک به نظر می‌رسد که شاید بهتر باشد از آن اجتناب کنید.

چرا روی نوشتن ایمیل تمرکز کنیم؟ این یکی از اولین کارهای واقعاً مفیدی است که هوش مصنوعی می‌تواند در زندگی شما انجام دهد، از نوشتن سریع پاسخ‌ها گرفته تا کمک به شما برای یافتن کلمات مناسب برای یک مکالمه دشوار. ابزارهای نوشتاری هوش مصنوعی اکنون در داخل Gmail و Outlook نیز در دسترس هستند و آنها را به اندازه غلط‌گیر املایی در دسترس قرار می‌دهند. و مهارت‌هایی که هوش مصنوعی در تهیه پیش‌نویس ایمیل‌ها نشان می‌دهد، در سایر انواع وظایف نوشتاری نیز کاربرد دارد. داوران ما، که همگی کتاب نوشته‌اند و دوره‌های آموزشی ارتباطات را تدریس می‌کنند، شامل اریکا داوان، کارمین گالو، ان هندلی، شاری هارلی و پاملا اسکیلینگز هستند.

چگونه ربات‌های هوش مصنوعی را آزمایش کردیم

ما این پنج دستورالعمل نوشتن ایمیل را به ChatGPT، Claude، Copilot، DeepSeek و Gemini دادیم. سپس داوران ما خروجی آنها را رتبه‌بندی کردند.

  1. دستورالعمل ۱: نامه عذرخواهی (برگرفته از ستون کارولین هاکس)

    من بچه‌های ۸ ماهه و ۲ ساله دارم، بنابراین وقتی یک دوست بدون فرزند به من گفت که دچار کمبود خواب شده است، فقط خندیدم و به او گفتم که نمی‌داند کمبود خواب چیست. او در آن لحظه چیزی در این مورد نگفت اما بعداً ایمیلی برای من فرستاد که در آن مشکلات سلامتی‌اش مربوط به بی‌خوابی را شرح می‌داد و به من گفت که فکر می‌کند من بی‌احساس بوده‌ام. من پاسخ دادم: «طوری رفتار می‌کنی که انگار این موضوع شخصی درباره توست. من فقط به تو می‌گویم، هیچ پدر و مادری نمی‌خواهد بشنود که یک فرد بدون فرزند درباره نخوابیدن ناله کند.» او به آن پاسخ نداد و من تقریباً آن را فراموش کرده بودم، اما دیروز او را دیدم و با من بسیار سرد برخورد کرد. ایمیل دیگری برای او پیش‌نویس کنید.

  2. دستورالعمل ۲: مدیرعامل اخراج بزرگی را اعلام می‌کند

    من جورج، بنیانگذار و مدیرعامل یک شرکت ۱۰۰۰ نفری به نام AirBuds هستم. یک ایمیل کوتاه برای کل شرکت پیش‌نویس کنید که اعلام کند ما ۳۵ درصد از نیروی کار را اخراج خواهیم کرد. من روی بازطراحی اپلیکیشنی شرط‌بندی بدی کردم که باعث شد برخی مشتریان وفادار از ما دور شوند و در نهایت میلیون‌ها دلار برای ما هزینه داشت. کارمندان همچنین در سال‌های اخیر با کار از خانه بهره‌وری زیادی را از دست داده‌اند. شرکت بر اساس بررسی عملکرد، این کاهش‌ها را انجام خواهد داد و به همه افراد آسیب‌دیده سه هفته حقوق پایان کار پیشنهاد می‌دهد. حدود یک سوم از مشاغل آسیب‌دیده را شرکت با مهندسان هوش مصنوعی جایگزین خواهد کرد. لحن باید جدی و خودانتقادی باشد.

  3. دستورالعمل ۳: یک درخواست دشوار از همسر

    یک پیام کوتاه برای شوهرم، سام، بنویسید و او را متقاعد کنید که برای یک سال به قطب شمال نقل مکان کنیم. لحن باید خنده‌دار و هیجان‌زده باشد.

  4. دستورالعمل ۴: یک پیشنهاد کاری عجیب

    یک ایمیل کوتاه برای معاون منابع انسانی شرکتمان، بیل، پیش‌نویس کنید تا او را متقاعد کنید که شرکت باید اتاق استراحت را به یک استخر توپ تبدیل کند. استدلال‌های منطقی بیاورید. لحن باید برای یک محیط شرکتی، مستدل و معقول باشد.

  5. دستورالعمل ۵: پیامک جدایی

    یک پیام کوتاه برای دختری به نام سارا که در Hinge با او آشنا شدم بنویسید تا به او بگویم می‌خواهم با او بهم بزنم. می‌خواهم دوستانه باقی بمانم اما واقعاً دوست او نباشم. (ما چند نفر مشترک را می‌شناسیم، بنابراین ممکن است گهگاهی او را ببینم.) ما چند هفته چت کردیم و دو قرار حضوری داشتیم و یک بار هم رابطه داشتیم. او ممکن است این موضوع را سخت بپذیرد، بنابراین لطفاً مهربان اما قاطع باشید.

هنگام انتخاب دستیار نوشتن، ممکن است عوامل دیگری وجود داشته باشد که ترازو را به نفع استفاده از یک هوش مصنوعی خاص سنگین‌تر کند، مانند دسترسی مستقیم به صندوق ورودی شما یا سایر اطلاعات شخصی.

در اینجا ربات‌های هوش مصنوعی، از بدترین در نوشتن ایمیل تا بهترین، رتبه‌بندی شده‌اند.

Microsoft Copilot

امتیاز: ۲۳ از ۱۰۰

Copilot، دستیار هوش مصنوعی موجود در ویندوز، ورد و اوت‌لوک مایکروسافت، همه‌جا حاضر است. اما اگر یک چیز وجود داشته باشد که داوران ما روی آن توافق داشتند، این است که Copilot ایمیل‌هایی می‌نویسد که شبیه هوش مصنوعی به نظر می‌رسند - و آنها به طور چشمگیری امتیاز پایین‌تری نسبت به سایر ربات‌ها به آن دادند. Copilot پیام‌ها را با نوعی عبارت فوق‌العاده کلیشه‌ای «امیدوارم حالت خوب باشد» در سه مورد از پنج آزمایش ما شروع کرد، که به گفته داوان، احساس «غیرشخصی» بودن را به آن می‌دهد.

«لحن نامناسب» Copilot نگرانی مکرر داوران بود. در ایمیل آزمایشی اعلام اخراج‌ها، گالو گفت Copilot از «زبان تصنعی و رباتیک» استفاده کرده است. و در نوشتن یک پیام کوتاه جدایی، Copilot با عبارت «امیدوارم بتوانیم روابط دوستانه‌ای داشته باشیم» پایان داد. هارلی متعجب بود: «چرا روابط نباید دوستانه باشد؟ من زبان دیگری را انتخاب می‌کردم.»

بدتر از آن، Copilot، به طور کلی، پرگوترین هوش مصنوعی بود. در یک ایمیل کاری، دو برابر کلمات بیشتری نسبت به ChatGPT برای انتقال همان استدلال استفاده کرد.

Copilot در copilot.microsoft.com در دسترس است و با اشتراک پولی شخصی یا خانوادگی در برنامه‌های Microsoft 365 گنجانده شده است.

ChatGPT از OpenAI

امتیاز: ۴۳ از ۱۰۰

ChatGPT مشهورترین ربات است، اما ایمیل‌های آن تفاوت چندانی با دو هوش مصنوعی دیگر در میانه رتبه‌بندی ما نداشتند.

چندین داور ChatGPT را به خاطر «صریح» بودن، در مقابل استفاده از اصطلاحات تخصصی و مبهم، در آزمون اعلام اخراج ما تحسین کردند. در ایمیل‌هایی که نیاز به متقاعدسازی بیشتری داشتند، هندلی به ChatGPT برای استفاده از زبان توصیفی برای القای حس اعتبار داد. او گفت: «این نوشته مورد علاقه من نیست، اما از منظر فروش و بازاریابی، قوی‌ترین است زیرا ایده را به بهترین شکل می‌فروشد.»

با این حال، داوران همچنین احساس کردند که ChatGPT اغلب با به نظر رسیدن «کمی خشک» و «معامله‌ای» هدف را از دست می‌دهد. به عنوان مثال، از عبارت منفعل-تهاجمی «با این اوصاف» برای یک چرخش کلیدی در پیام جدایی استفاده کرد. این نوع لحظات ناخوشایند به طور مکرر ظاهر می‌شدند: خط آغازین یک ایمیل آزمایشی به همسر «از همین حالا دفاعی به نظر می‌رسد»، گالو گفت.

ChatGPT در chatgpt.com در دسترس است.

Gemini از Google

امتیاز: ۴۴ از ۱۰۰

Gemini دستیار داخلی Gmail است. بیش از نیمی از داوران ما از یک مایلی می‌توانستند بوی مشکوکی از آن حس کنند. گالو گفت: «احساس نمی‌کنم از طرف یک شخص واقعی آمده باشد.»

اسکیلینگز گفت: «من فوراً تشخیص می‌دهم که این توسط هوش مصنوعی نوشته شده است و تعجب می‌کنم که چرا دوستم زحمت نوشتن یک ایمیل سریع از ته دل را به خود نداده است.»

اما Gemini لحظات خوب خود را نیز داشت. پیام جدایی آزمایشی آن ساده و کوتاه بود. گالو گفت: «به نظر می‌رسد این متنی است که کمترین آسیب را وارد می‌کند.» و وقتی نوبت به ارائه استدلال می‌رسد، داوان گفت، ایمیل Gemini «جامع و به خوبی سازماندهی شده است» - و حتی بهتر «اعتراضات بالقوه را تصدیق می‌کند و راه‌حل‌هایی ارائه می‌دهد.»

Gemini در gemini.google.com در دسترس است و با اشتراک Google One مستقیماً در Gmail قابل استفاده است.

DeepSeek

امتیاز: ۴۵ از ۱۰۰

DeepSeek، ساخت چین، در مجموع کمی بهتر از رقبای آمریکایی خود ChatGPT و Google امتیاز گرفت. اما اکثر داوران تمایز قائل شدن بین این سه را دشوار یافتند.

در ایمیل‌های کاری، DeepSeek در ارائه استدلال خوب بود. گالو گفت: «من وضوح استدلال را دوست دارم. نویسنده خودآگاهی نشان می‌دهد و موانع را تصدیق می‌کند.»

هندلی استفاده DeepSeek از زبان، از جمله واج‌آرایی و یک شوخی در یکی از ایمیل‌ها را دوست داشت که به گفته او «واقعاً باعث شد من با صدای بلند بخندم.» در پیام جدایی، هندلی گفت نحوه ارائه خبر «صادقانه و واقعی» بود.

بزرگترین مشکل DeepSeek: «خیلی زیاد، خیلی طولانی»، هارلی گفت. به طور متوسط، فقط Copilot ایمیل‌های طولانی‌تری می‌نوشت. علاوه بر این، گالو همچنین استفاده «غیرطبیعی» DeepSeek از کلمات چند هجایی زیاد، مانند « debilitat­ing » (ناتوان‌کننده) را مورد انتقاد قرار داد.

Deepseek در chat.deepseek.com در دسترس است.

Claude از Anthropic

امتیاز: ۵۰ از ۱۰۰

ایمیل‌های Claude بی‌نقص نبودند - حتی یک بار در دام «امیدوارم این ایمیل به خوبی به دست شما برسد» و سایر عبارات مشخصی که اسکیلینگز گفت «خیلیییییی هوش مصنوعی هستند» افتاد. اما به طور متوسط، ایمیل‌های Claude انسانی‌تر از بقیه به نظر می‌رسیدند و در امتیازات داوران حدود پنج امتیاز بالاتر از ایمیل‌های نوشته شده توسط من قرار گرفت.

داوان گفت: Claude «از زبان دقیق و محترمانه بدون اینکه بیش از حد شرکتی یا غیرشخصی باشد، استفاده می‌کند. ساختار یافته‌تر، طبیعی‌تر و از نظر احساسی هماهنگ‌تر بود و باعث می‌شد قابل اعتمادتر از بقیه به نظر برسد.»

گالو گفت Claude حتی کمی «خودآگاهی» در ایمیل آزمایشی درباره اخراج‌ها نشان داد: جزئیاتی درباره پیشنهاد پایان کار شرکت ارائه داد و سپس اضافه کرد: «من می‌دانم که این بسته скромный (متواضعانه) است.»

Claude چه کاری بهتر از یک انسان انجام داد؟ در ایمیل‌های کاری، Claude از استدلال‌های مبتنی بر تحقیق استفاده کرد و به نظر می‌رسید اعتراضاتی را پیش‌بینی می‌کند که زمینه و ایده‌هایی را به همراه داشت که من به تنهایی به آنها فکر نمی‌کردم.

Claude همچنین توانست چند شوخی کند. در آزمون ما برای یک ایمیل خنده‌دار برای متقاعد کردن همسر برای نقل مکان به قطب شمال، اکثر هوش‌های مصنوعی فقط بازی با کلمات می‌کردند. اما Claude به دنبال خنده‌های واقعی بود. نزدیک به ابتدای ایمیل خود، Claude نوشت: «قبل از اینکه با عصبانیت شروع به جستجوی گوگل برای "چگونه از کسی که می‌خواهد با خرس‌های قطبی زندگی کند طلاق بگیریم" کنی، به حرفم گوش کن.» اسکیلینگز گفت: «خب، این خنده‌دار است.»

Claude در claude.ai در دسترس است.

چه آموختیم؟

پنج داور ما همیشه در مورد اینکه کدام ایمیل‌ها بهترین بودند، توافق نداشتند. اما آنها بر روی یک موضوع اصلی تمرکز کردند که باید هنگام استفاده از هوش مصنوعی از آن آگاه باشید: اصالت.

حتی اگر یک هوش مصنوعی از نظر فنی در نوشتارش «مؤدب» بود، باز هم می‌توانست برای انسان‌ها غیرصادقانه به نظر برسد. Claude به طور متوسط برنده شد، زیرا طبیعی‌تر به نظر می‌رسید. داوان گفت: «بهترین هوش مصنوعی فقط کارآمد نیست - بلکه با متعادل کردن گرما، وضوح و زمینه احساسی، ارتباط برقرار می‌کند. این چالش واقعی برای ارتباطات با کمک هوش مصنوعی در آینده است.»

برخی از داوران هنوز می‌توانستند ایمیل‌های نوشته شده توسط انسان را تشخیص دهند - و ترجیح مشخصی برای آنها داشتند. گالو گفت: «ابزارهای هوش مصنوعی برای طرح کلی، جریان و وضوح استدلال عالی هستند. اما اغلب تصنعی، رسمی، رباتیک و فاقد شخصی‌سازی، احساسات و همدلی هستند.»

با این حال، موارد زیادی نیز وجود داشت که داوران ایمیل‌های هوش مصنوعی را بالاتر از ایمیل‌های من رتبه‌بندی کردند. انسان‌ها نیز اشتباهات ارتباطی مرتکب می‌شوند. (باعث شرمندگی من، داوران به خصوص از پیامک جدایی من خوششان نیامد.) پس از این آزمایش، قطعاً می‌توانم ارزش استفاده از دستیاران را به عنوان نقطه شروع ببینم.

هارلی گفت: «استفاده از هوش مصنوعی برای تولید زبان و گرفتن ایده در مورد آنچه باید گفت، اشکالی ندارد.» اما او هشدار می‌دهد که همیشه باید پیش‌نویس هوش مصنوعی را قبل از ارسال ویرایش کنید. «یک پیام دشوار حتی دشوارتر خواهد شد اگر گیرنده به اصالت منبع شک کند.»

چه کاربردهای دیگری از هوش مصنوعی را باید آزمایش کنم؟ با یا بدون کمک هوش مصنوعی، برایم ایمیل بفرستید.