تصویر از نویسنده، تولید شده با استفاده از ChatGPT (DALL-E 3)
تصویر از نویسنده، تولید شده با استفاده از ChatGPT (DALL-E 3)

ما یک لایه مسیریابی برای کاهش هزینه‌های هوش مصنوعی ساختیم. محصول را خراب کرد.

لایه‌های مسیریابی بهینه‌سازی هزینه، یک تله پارتو هستند. صورت‌حساب کاهش می‌یابد. محصول خراب می‌شود. اکثر تیم‌ها سه ماه طول می‌کشد تا متوجه شوند.

این تیم در سه‌ماهه گذشته قبض استنتاج هوش مصنوعی خود را بیش از نصف کاهش داد. هشت هفته کار مهندسی دقیق. این پیروزی‌ای بود که تیم مهندسی در تمام سال به دنبال آن بود. همچنین بهینه‌سازی اشتباهی بود. سه ماه بعد، رضایت مشتری در حال کاهش بود، نرخ ریزش مشتری در حال افزایش بود، و صرفه‌جویی در هزینه به طور ساختاری به کاهش کیفیت گره خورده بود. ما پیروز نشده بودیم. فقط هزینه را به جایی منتقل کرده بودیم که آن را اندازه‌گیری نمی‌کردیم.

این الگویی است که انتظار دارم در طول شش ماه آینده در استقرارهای هوش مصنوعی در محیط عملیاتی مشاهده کنم. گفتگوی سال ۲۰۲۶ پیرامون اقتصاد هوش مصنوعی، یک راهکار اجماع‌یافته را ایجاد کرده است. درخواست‌های ساده را به مدل‌های ارزان‌تر مسیریابی کنید. درخواست‌های پیچیده و گران را روی مدل‌های توانمند نگه دارید. قبض را کاهش دهید، کیفیت را حفظ کنید. هر مدیر مالی این محاسبات را دیده است. هر تیم مهندسی آن را ساخته یا در حال ساختن آن است.

محاسبات واقعی هستند. تله پارتو نیز واقعی است.

مطلب زیر چیزی است که من پس از تحلیل پس از شکست به تیم گفتم. این مطلب معماری‌ای را که آن‌ها ساختند، حالت شکست‌ای را که با آن مواجه شدند، روش شناسایی‌ای را که می‌توانست زودتر آن را ردیابی کند، و الگوی معماری‌ای را که باید به جای آن می‌ساختند، توصیف می‌کند. همچنین شامل دو استقرار دیگر است که پس از این مورد حسابرسی کردم، که در آن‌ها همین الگو در صنایع مختلف ظاهر شد. شواهد ترکیبی نشان می‌دهد که لایه‌های مسیریابی بهینه‌سازی هزینه، به شکلی که راهکار اجماع‌یافته تجویز می‌کند، در محیط عملیاتی از نظر ساختاری شکننده هستند.

آنچه ما ساختیم

این تیم یک عامل هوش مصنوعی پشتیبانی مشتری برای یک محصول SaaS با تقریباً ۴ میلیون کاربر فعال ماهانه را اداره می‌کرد. این عامل بر روی یک مدل توانمند واحد، یعنی بالاترین رده مدل استدلالی در پشته آن‌ها در زمان ساخت، اجرا می‌شد. حجم استنتاج به اندازه‌ای بالا بود که قبض ماهانه از ارائه‌دهنده مدل آن‌ها به شش رقم رسیده و با افزایش پذیرش در حال افزایش بود.

لایه مسیریابی از نظر مفهومی شفاف بود. یک مدل طبقه‌بندی‌کننده کوچک، که به طور سفارشی روی تقریباً ۲۰۰,۰۰۰ درخواست پشتیبانی مشتری با برچسب‌های کیفی آموزش دیده بود، در جلوی عامل اصلی قرار می‌گرفت و هر درخواست ورودی را "ساده" یا "پیچیده" برچسب‌گذاری می‌کرد. درخواست‌های ساده به یک مدل ارزان‌تر در همان خانواده ارائه‌دهنده مسیریابی می‌شدند. درخواست‌های پیچیده همچنان به مدل توانمند مسیریابی می‌شدند. خود طبقه‌بندی‌کننده یک رمزگذار تنظیم‌شده بود که به اندازه‌ای سبک بود که در کمتر از ۳۰ میلی‌ثانیه با سربار هزینه ناچیز اجرا شود.

طبقه‌بندی بر اساس مشاهدات تولیدی ساخته شده بود. درخواست‌های ساده مواردی بودند که تیم بارها دیده بود: جستجوهای حساب، سوالات مربوط به وضعیت صورت‌حساب، بازنشانی رمز عبور، ردیابی سفارش و سوالات مربوط به ساعات کاری. درخواست‌های پیچیده مواردی بودند که از نظر تاریخی نیاز به استدلال دقیق و چندمرحله‌ای داشتند: اختلافات بازپرداخت، تبادلات مربوط به تغییر طرح، عیب‌یابی ادغام، و ناهنجاری‌های چرخه صورت‌حساب. این تقسیم‌بندی در یک هفته نماینده از ترافیک تولیدی، حدود ۶۵ درصد ساده و ۳۵ درصد پیچیده بود.

مدل ارزان‌تری که تیم انتخاب کرده بود، حدود یک چهارم هزینه هر توکن مدل توانمند بود. برای درخواست‌های ساده‌ای که طبقه‌بندی‌کننده به آن ارسال می‌کرد، ارزیابی کنار به کنار در مقابل مدل توانمند، کیفیت پاسخ معادل را در ۹۴ درصد از یک مجموعه داده نگه‌داشته شده ۵,۰۰۰-درخواستی نشان داد. شکاف ۶ درصدی قابل مشاهده بود، اما تیم آن را با توجه به کاهش هزینه قابل قبول دانست. آن‌ها کیفیت مدل ارزان‌تر را از طریق خط لوله ارزیابی موجود خود که پاسخ‌های تولیدی را برای بررسی انسانی در حدود نیم درصد از ترافیک نمونه‌برداری می‌کرد، نظارت می‌کردند.

ساخت این سیستم هشت هفته طول کشید. سه مهندس، یک متخصص یادگیری ماشین، با تخصیص جزئی. آن‌ها اعتبارسنجی طرح‌واره را بین طبقه‌بندی‌کننده و مدل‌های پایین‌دست، ابزارسازی روی تصمیم مسیریابی، و یک مسیر بازگشتی در صورت شکست خود طبقه‌بندی‌کننده اضافه کردند. استقرار تدریجی بود. پنج درصد از ترافیک برای هفته اول، سپس ده، سپس بیست و پنج، سپس پنجاه، و سپس استقرار کامل در طول شش هفته. هر مرحله استقرار، معیارهای کیفیت را در محدوده سبز نگه داشت. تاخیر در محدوده هدف موجود آن‌ها باقی ماند. هزینه متناسب با سهم مسیریابی کاهش یافت.

تا پایان هفته هشتم، صورت‌حساب استنتاج ماهانه تقریباً به ۴۰% سطح قبلی خود کاهش یافته بود. تیم مهندسی این کار را در جلسات عمومی شرکت ارائه کرد. مدیر مالی یادداشتی تشکرآمیز برای تیم هوش مصنوعی ارسال کرد. معیارهای پذیرش در داخل عامل ثابت یا کمی مثبت باقی ماندند. تیم به اولویت سه ماهه بعدی خود پرداخت.

کار قوی بود. معماری منطقی بود. نظارت برقرار بود. تیم کاری را انجام داده بود که هر مقاله اخیر در مورد بهینه‌سازی هزینه هوش مصنوعی توصیه کرده بود. هر تصمیم فردی قابل دفاع بود. با این حال، سیستم ترکیبی، شکاف کیفیتی ایجاد کرده بود که معماری اندازه‌گیری موجود قادر به دیدن آن نبود.

این شکاف سه ماه طول کشید تا در معیارهای کسب و کار ظاهر شود و یک ماه دیگر طول کشید تا به درستی به آن نسبت داده شود. زمانی که آن‌ها متوجه شدند چه اتفاقی افتاده است، چهار ماه گذشته بود و تاثیر بر مشتری از قبل در اتاق بود.

آنچه اندازه‌گیری کردیم (و آنچه اندازه‌گیری نکردیم)

معماری ارزیابی تیم قبل از ساخت لایه مسیریابی بر اساس این فرض بود که آن‌ها یک مدل واحد را اجرا می‌کنند. سیگنال کیفیت از سه منبع می‌آمد. یک نمونه بررسی انسانی روزانه از حدود ۲۰۰ پاسخ، که برای دقت و کارایی امتیازدهی می‌شد. یک مجموعه رگرسیون آفلاین تقریباً ۱۲,۰۰۰ درخواست برچسب‌گذاری شده که هفتگی در برابر مدل تولیدی اجرا می‌شد. و یک سیگنال رضایت از ویجت بازخورد داخلی عامل، که کاربران می‌توانستند پاسخ‌ها را با لایک یا دیسلایک امتیاز دهند.

زمانی که لایه مسیریابی فعال شد، تیم نمونه بررسی انسانی را گسترش داد تا همان تعداد ۲۰۰ بررسی روزانه را حفظ کند اما آن را بر اساس رده مسیریابی جدا نکرد. آن‌ها مدل ارزان‌تر را به مجموعه رگرسیون آفلاین اضافه کردند، که در آن در محدوده آستانه پذیرش آن‌ها امتیاز گرفت. آن‌ها ویجت بازخورد داخلی محصول را بدون تغییر رها کردند زیرا راهی برای تعیین اینکه کدام مدل پاسخ را ارائه کرده بود نداشت.

در بازنگری، این سه انتخاب اندازه‌گیری بذر مشکل بودند. نمونه کلی بررسی انسانی نشان داد که کیفیت در حدود خط مبنای قبل از مسیریابی حفظ شده است. مجموعه رگرسیون آفلاین نشان داد که مدل ارزان‌تر در زیرردیف خود موفق عمل کرده است. مجموعه ویجت بازخورد در محصول در محدوده واریانس تاریخی باقی ماند. هر چیزی که آن‌ها می‌توانستند ببینند سبز بود.

آنچه آن‌ها نمی‌دیدند، در سه لایه مختلف ظاهر شد.

نمونه بررسی انسانی، که بدون نمونه‌برداری آگاه از رده انجام شده بود، به طور مؤثری یک میانگین وزنی بود، با ۶۵ درصد از بررسی‌ها روی مدل ارزان و ۳۵ درصد روی مدل توانمند. از آنجا که مدل ارزان در موارد آسان (مرکز پرحجم توزیع درخواست‌های ساده) معادل بود، میانگین را بالا می‌برد. مسائل کیفیتی در لبه‌های سخت‌تر توزیع درخواست‌های ساده، در مجموع به حدی رقیق می‌شدند که نامرئی می‌شدند.

مجموعه رگرسیون آفلاین هر دو مدل را در برابر مجموعه‌های درخواست منتخب آزمایش می‌کرد، اما انتخاب ایستا بود. این مجموعه شش ماه قبل از استقرار، زمانی که تیم هیچ تصوری از مسیریابی نداشت، ساخته شده بود. این مجموعه توزیع ایده‌آل را به جای توزیع واقعی تولیدی که مدل ارزان اکنون باید مدیریت می‌کرد، منعکس می‌کرد. مدل ارزان از مجموعه ایستایی عبور کرد اما در لبه فعال رو به زوال گذاشت.

ویجت بازخورد داخلی محصول یک مشکل ساختاری داشت که تیم بیش از یک سال از آن آگاه بود اما آن را در اولویت رفع قرار نداده بود. بازخورد مشتری پراکنده بود. یک جلسه معمولی هیچ امتیازی تولید نمی‌کرد. مشتریان در حدود ۳ بار در هر ۱۰۰۰ تعامل، پاسخ‌ها را دیسلایک می‌کردند، و این دیسلایک‌ها به سمت مشتریانی متمایل بود که از چیز دیگری کاملاً ناامید شده بودند. نسبت سیگنال به نویز در ویجت برای تشخیص هر تغییری کوچک‌تر از یک رگرسیون عمده بسیار پایین بود.

هیچ یک از این شکست‌ها مختص لایه مسیریابی نبود. آن‌ها در معماری اندازه‌گیری نهفته بودند. لایه مسیریابی فقط آن‌ها را آشکار کرد. تا زمانی که سیستم روی یک مدل واحد اجرا می‌شد، شکاف‌های اندازه‌گیری نتایج مثبت کاذب تولید نمی‌کردند، زیرا تنها یک توزیع کیفیت برای اندازه‌گیری وجود داشت. لایه مسیریابی دو توزیع کیفیت را معرفی کرد، اما معماری موجود نمی‌توانست آن‌ها را به طور جداگانه مشاهده کند.

افت کیفیت در رده مدل ارزان در هفته سوم پس از استقرار کامل آغاز شد. تا هفته ششم، افت در مجموعه رگرسیون قابل اندازه‌گیری بود، اما تیم رگرسیون کوچک را به عنوان افت نسخه مدل از ارائه‌دهنده خود تفسیر کرد تا مربوط به مسیریابی، زیرا آن‌ها تحلیل خود را بر اساس رده تقسیم‌بندی نمی‌کردند. تا هفته دهم، تأثیر تجمعی بر رضایت مشتری در معیارهای محصول مشهود بود. تا هفته سیزدهم، نرخ ریزش مشتری به طور قابل اندازه‌گیری بالاتر از خط مبنای قبلی بود.

این نقطه‌ای بود که تیم با من تماس گرفت.

آنچه شکست خورد و چگونه آن را پیدا کردیم

تشخیص دو هفته طول کشید. ما تصمیمات مسیریابی را از گزارش ابزارسازی بازسازی کردیم، آن‌ها را با رویدادهای بازخورد در محصول ترکیب کردیم و یک نمای کیفیتی به ازای هر رده ساختیم که تیم قبلاً ندیده بود.

الگو بلافاصله در رده مدل ارزان ظاهر شد. مدل ارزان تقریباً ۸۰ درصد از درخواست‌هایی را که طبقه‌بندی‌کننده به آن ارسال می‌کرد، به خوبی انجام می‌داد، که با یافته کیفیت معادل از مجموعه نگه‌داشته شده ۵,۰۰۰-درخواستی اولیه مطابقت داشت. اما ۲۰ درصد دیگر در محیط عملیاتی از جهاتی با مجموعه نگه‌داشته شده تفاوت ساختاری داشتند که طبقه‌بندی‌کننده در زمان تصمیم‌گیری نمی‌توانست آن‌ها را تشخیص دهد.

واضح‌ترین مثال درخواست‌های صورت‌حساب بود. طبقه‌بندی‌کننده برای تشخیص الگوهایی مانند "شارژ من از کجا آمده است" یا "من دو بار صورت‌حساب دریافت کردم" به عنوان درخواست‌های ساده آموزش دیده بود، با این فرض که جستجوی حساب به همراه بازیابی صورت‌حساب یک الگوی پایین‌دست قابل اعتماد است. در آزمایش مجموعه نگه‌داشته شده، این درست بود. در محیط عملیاتی، بخش قابل توجهی از آن درخواست‌های صورت‌حساب، نیات پیچیده‌تری را پنهان می‌کردند. کاربری که می‌پرسید "شارژ من از کجا آمده است" گاهی اوقات در مورد یک شارژ کلاهبرداری واقعی می‌پرسید، گاهی اوقات در مورد یک تطابق تاخیری بین دو سیستم، و گاهی اوقات در مورد تغییر چرخه صورت‌حسابی که به آن‌ها اطلاع داده نشده بود. مدل توانمند به آرامی این نیات تو در تو را به درستی مدیریت می‌کرد زیرا فضای کافی برای دنبال کردن مکالمه به سمت پیچیدگی را داشت. مدل ارزان هر یک از آن‌ها را به عنوان نیت سطح ظاهر در نظر می‌گرفت و به سوالی پاسخ می‌داد که مشتری در واقع نپرسیده بود.

مشتریانی که آن پاسخ‌های اشتباه را دریافت می‌کردند، همیشه دیسلایک نمی‌کردند. بسیاری از آن‌ها فقط از عامل خارج شده و در عوض با خط پشتیبانی تماس می‌گرفتند. بنابراین، سیگنال دیسلایک، شکست را کمتر از واقعیت نشان می‌داد. هزینه شکست به تیم پشتیبانی انسانی منتقل می‌شد، که همان درخواست را برای بار دوم مدیریت می‌کردند، و هزینه انسانی از بودجه‌ای متفاوت پرداخت می‌شد. اثر کلی این بود که نرخ انحراف اندازه‌گیری شده عامل هوش مصنوعی ثابت ماند در حالی که حجم واقعی پشتیبانی انسانی شروع به افزایش کرد.

تیم افزایش حجم پشتیبانی انسانی را به لایه مسیریابی متصل نکرده بود زیرا دو تیم در مراکز هزینه مختلف فعالیت می‌کردند و این ارتباط در هیچ داشبورد واحدی قابل مشاهده نبود.

تأثیر تجمعی بر رضایت مشتری به طور دقیق‌تر قابل اندازه‌گیری نبود، اما در نهایت به دو روش ظاهر شد. اول، گروهی از مشتریان که در طول دوره استقرار لایه مسیریابی با عامل تعامل داشتند، در نظرسنجی پیگیری ۹۰ روز پس از تعامل، نمرات رضایت کمتری نسبت به گروه مبنا از قبل از استقرار نشان دادند. دوم، حفظ مشتری در نقطه ۶ ماهه نسبت به خط مبنای قبلی رو به کاهش بود، با شدیدترین افت در بخش‌هایی که بیشتر در معرض الگوهای مسیریابی ناموفق بودند.

هنگامی که ما اعداد را با هم بررسی کردیم، تأثیر هزینه ناشی از کاهش کیفیت به طور محافظه‌کارانه چهار تا پنج برابر صرفه‌جویی در هزینه از طریق لایه مسیریابی بود. تیم هزینه‌های استنتاج را حدود ۱۰۰,۰۰۰ دلار در ماه کاهش داده بود و هزینه‌های حفظ مشتری و پشتیبانی بین ۴۰۰,۰۰۰ تا ۵۰۰,۰۰۰ دلار در ماه متحمل شده بود. محاسبات، پس از مشاهده کامل، بدون ابهام بود.

این ویژگی ساختاری تله پارتو است. صرفه‌جویی در هزینه در لایه استنتاج توسط تیمی که سیستم مسیریابی را ساخته است، اندازه‌گیری می‌شود. هزینه از دست دادن کیفیت توسط تجربه مشتری، تیم پشتیبانی انسانی، و عملکرد حفظ مشتری تحمل می‌شود، که هیچ یک از آن‌ها متعلق به تیمی نیستند که بهینه‌سازی را انجام داده است. هر تیم بودجه خود را بهینه می‌کند. بهینه‌سازی ترکیبی منفی است.

تیم در هفته شانزدهم، لایه مسیریابی را به یک تنظیم بسیار محافظه‌کارانه‌تر برگرداند. تا هفته بیستم، روند رضایت مشتری در حال معکوس شدن بود. تا هفته بیست و هشتم، اعداد حفظ مشتری به خط مبنا بازگشته بودند. کل هزینه صرف شده برای این آزمایش، بین صرفه‌جویی‌های بازیافتی و تأثیر وارده بر مشتری، تقریباً دو سه‌ماهه ارزش محصول منفی خالص بود.

چرا مدل‌های ارزان در دم بلند شکست می‌خورند

دلیل ساختاری بودن این الگو، نه موقعیتی بودن آن، ارزش درنگ دارد. این موضوع به مدل خاصی که تیم انتخاب کرده بود، ارائه‌دهنده خاص، یا طبقه‌بندی‌کننده خاصی که آن‌ها آموزش داده بودند، مربوط نمی‌شود. بلکه به هندسه فضای مسئله مربوط است.

درخواست‌های مشتری در هر استقرار هوش مصنوعی در محیط عملیاتی، از توزیع قانون توانی دشواری پیروی می‌کنند. حجم زیادی از درخواست‌ها در مرکز آسان جمع می‌شوند. حجم کوچک‌تری به دم بلند درخواست‌های دشوارتر، مبهم‌تر و وابسته به متن گسترش می‌یابد. مدل‌های پیشرفته برای مرکز آسان بیش از حد ظرفیت‌گذاری شده‌اند. آن‌ها قابلیت‌های بسیار بیشتری از آنچه برای پاسخ به "چه ساعتی باز می‌کنید؟" نیاز است، دارند. این ظرفیت‌گذاری بیش از حد دقیقاً به همین دلیل است که فرصت بهینه‌سازی هزینه واقعی است. مسیریابی مرکز آسان به یک مدل ارزان‌تر می‌تواند صرفه‌جویی‌های واقعی را بدون فدا کردن کیفیت در آن درخواست‌ها به همراه داشته باشد.

مشکل این است که طبقه‌بندی‌کننده‌ها نمی‌توانند به طور قابل اعتمادی مرکز آسان را از دم بلند در زمان تصمیم‌گیری جدا کنند. طبقه‌بندی‌کننده شکل ظاهری یک درخواست را می‌بیند. دم بلند زیر اشکال ظاهری پنهان است که آسان به نظر می‌رسند. درخواستی که به نظر "شارژ من از کجا آمده است" می‌رسد، می‌تواند یک جستجوی حساب ساده یا خط آغازین یک تحقیقات کلاهبرداری باشد که نیاز به استدلال دقیق و چندمرحله‌ای دارد. طبقه‌بندی‌کننده کلمات مشابهی را می‌بیند. مدل ارزان همان پاسخ ظاهری را می‌دهد. مشتری در مورد کلاهبرداری، پاسخ اشتباهی به سوالی که در واقع نمی‌پرسید دریافت می‌کند.

این همان مشکل فشرده‌سازی دم بلند است. شکل ظاهری یک پیش‌بینی‌کننده ضعیف از عمق نیت برای مهم‌ترین درخواست‌ها است. درخواست‌هایی که شکل ظاهری در آن‌ها قابل اعتمادترین است، موارد آسان هستند، که همچنین مواردی هستند که انتخاب مدل در آن‌ها کمترین اهمیت را دارد. درخواست‌هایی که شکل ظاهری در آن‌ها کمترین قابلیت اطمینان را دارد، موارد سخت هستند، که انتخاب مدل در آن‌ها بیشترین اهمیت را دارد. طبقه‌بندی‌کننده دقیقاً در جایی که لازم نیست کالیبره شده است، و دقیقاً در جایی که لازم است، به درستی کالیبره نشده است.

مکانیزم دومی نیز وجود دارد. مدل‌های پیشرفته تمایل به حالت‌های شکست قابل بازیابی دارند. آن‌ها گاهی اوقات ابهام می‌کنند، درخواست شفاف‌سازی می‌کنند، یا عدم اطمینان خود را به گونه‌ای نشان می‌دهند که یک انسان را به مداخله وادار می‌کند. مدل‌های کوچک‌تر اغلب با اطمینان شکست می‌خورند. آن‌ها یک پاسخ کامل، معقول و از نظر ظاهری منسجم تولید می‌کنند که در مورد نیت واقعی اشتباه است. تشخیص اشتباه بودن پاسخ برای مشتری دشوارتر از یک پاسخ مبهم است، به این معنی که شکست برای مدت طولانی‌تری بدون پرچم می‌ماند.

مکانیزم سوم، رانش است. توزیع درخواست‌های تولیدی تکامل می‌یابند. محصولات جدید عرضه می‌شوند. گروه‌های جدیدی از مشتریان وارد می‌شوند. حالت‌های شکست جدیدی پدیدار می‌شوند. طبقه‌بندی‌کننده‌ای که بر اساس شش ماه ترافیک تاریخی آموزش دیده است، به تدریج بخش فزاینده‌ای از درخواست‌ها را به اشتباه مسیریابی می‌کند زیرا توزیع از مجموعه آموزشی آن فاصله می‌گیرد. صرفه‌جویی در هزینه ثابت باقی می‌ماند زیرا لایه مسیریابی همچنان ترافیک را با همان نرخ به مدل ارزان‌تر می‌فرستد. هزینه کیفیت به آرامی رشد می‌کند، زیرا طبقه‌بندی‌کننده به طور فزاینده‌ای در مورد اینکه کدام درخواست‌ها واقعاً ساده هستند، اشتباه می‌کند.

هندسه ترکیبی بی‌رحمانه است. رده مدل ارزان، حجم آسان را به خوبی مدیریت می‌کند، در دم بلند پنهان به طور مبهم شکست می‌خورد، و با رانش توزیع بیشتر نیز رو به زوال می‌رود. صرفه‌جویی‌ها در یک داشبورد قابل مشاهده هستند. هزینه به وسیله افرادی پرداخت می‌شود که تصمیم مسیریابی را نمی‌بینند.

این همان چیزی است که لایه‌های مسیریابی را به جای یک بهینه‌سازی پر سر و صدا، به یک تله پارتو تبدیل می‌کند. هندسه ساختاری است.

دو تیم دیگر که پس از این مورد حسابرسی کردم

پس از بررسی این مورد، من شروع به جستجو برای همان الگو در سایر استقرارهای هوش مصنوعی که به آن‌ها دسترسی داشتم، کردم. دو مورد به سرعت ظاهر شدند.

اولین مورد یک شرکت SaaS میان‌رده با دستیار هوش مصنوعی موفقیت مشتری بود. مقیاس کوچک‌تر از تیم اول، هزینه استنتاج ماهانه در پنج رقم پایین به جای شش رقم. الگوی معماری مشابه. آن‌ها چهار ماه قبل یک لایه مسیریابی ساخته بودند که درخواست‌های ساده (که توسط یک طبقه‌بندی‌کننده شباهت جاسازی به جای یک رمزگذار تنظیم‌شده تعریف می‌شد) را به یک مدل ارزان‌تر ارسال می‌کرد. صرفه‌جویی در هزینه در حدود پنجاه درصد بود. معیارهای کیفیت در داشبورد داخلی آن‌ها سبز بود.

هنگامی که ما سیگنال بازخورد آن‌ها را بر اساس رده مسیریابی تقسیم‌بندی کردیم، رده مدل ارزان نمره رضایت معنی‌داری پایین‌تری برای درخواست‌های دم بلند داشت که طبقه‌بندی‌کننده جاسازی آن‌ها را ساده برچسب‌گذاری کرده بود. تیم نسبت به این شکاف کور بود زیرا داشبورد کلی، دو رده را در یک عدد جمع کرده بود. آن‌ها تأثیر بر اعتماد مشتری را تقریباً دو و نیم تا سه برابر صرفه‌جویی در هزینه تخمین زدند، اگرچه اندازه‌گیری آن‌ها کمتر از تیم اول دقیق بود. آن‌ها لایه مسیریابی را ظرف یک ماه از حسابرسی به سهم بسیار کوچک‌تری بازگرداندند.

دومین مورد، یک مورد در صنعت تنظیم‌شده فین‌تک بود. هزینه استنتاج ماهانه در شش رقم بالا. آن‌ها یک لایه مسیریابی محافظه‌کارانه‌تر ساخته بودند که فقط درخواست‌های "اطلاعاتی" (مانند موجودی حساب، تاریخچه تراکنش‌ها، اطلاعات پایه محصول) را به یک مدل ارزان‌تر می‌فرستاد و هر چیزی که با انطباق یا تصمیمات مالی سر و کار داشت را روی مدل توانمند نگه می‌داشت.

الگو در اینجا به شکل متفاوتی ظاهر شد. صرفه‌جویی در هزینه کمتر بود زیرا سهم مسیریابی محافظه‌کارانه‌تر و در حدود ۲۰% بود. اما شکست دم بلند در رده مدل ارزان دارای پیامدهای انطباق بود زیرا برخی از درخواست‌هایی که به نظر اطلاعاتی می‌رسیدند در واقع وزن نظارتی داشتند. مشتری‌ای که می‌پرسید "نرخ بهره من چقدر است" گاهی اوقات یک سوال پیگیری داشت که به دقت پاسخ اول بستگی داشت، که مدل ارزان نمی‌توانست به طور قابل اعتمادی ارائه دهد. تیم انطباق آن را از طریق یک حسابرسی دستی قبل از تبدیل شدن به یک مسئله نظارتی ردیابی کرد، اما این تجربه آن‌ها را وادار به بازگرداندن کامل مسیریابی کرد.

مورد فین‌تک به طور خاص روشنگر بود. این مورد روشن کرد که مبادله هزینه-کیفیت در صنایع مختلف متقارن نیست. در پشتیبانی مشتری، پاسخ اشتباه قابل جبران است. در صنایع تنظیم‌شده، پاسخ اشتباه می‌تواند یک تخلف باشد. تله پارتو در هر زمینه‌ای که هزینه‌های دم بلند بالا یا محدود هستند، تقویت می‌شود.

در هر سه مورد، الگو ثابت بود. صرفه‌جویی در هزینه واقعی و قابل اندازه‌گیری بود. از دست دادن کیفیت واقعی بود و توسط معماری موجود قابل اندازه‌گیری نبود. تیم‌هایی که شکاف را تشخیص دادند، ماه‌ها بعد، پس از آنکه معیارهای کسب و کار تأثیر را جذب کرده بودند، آن را یافتند. تیم‌هایی که آن را تشخیص ندادند، به بهینه‌سازی‌های منفی خالص علیه مشتریان خود ادامه می‌دادند تا زمانی که داشبوردها سبز باقی می‌ماندند.

تشخیص تله قبل از گذشت سه ماه

روش تشخیصی که می‌توانست هر یک از این موارد را زودتر تشخیص دهد، ساده است، اما مستلزم تغییر معماری اندازه‌گیری قبل از فعال شدن لایه مسیریابی است. سه افزودنی مشخص به پشته مشاهده‌پذیری.

نظارت بر کیفیت به ازای هر رده، اساسی‌ترین مورد است. هر سیگنال کیفیت در معماری موجود باید بر اساس رده مسیریابی تقسیم شود، با برچسب رده که از ابتدا تا انتها از طریق ابزارسازی منتشر می‌شود. نمونه‌های بررسی انسانی باید طبقه‌بندی شوند تا هر رده بررسی متناسب یا بیش از حد نمونه‌برداری شده دریافت کند. مجموعه‌های رگرسیون آفلاین باید به زیرمجموعه‌های خاص رده تقسیم شده و به طور جداگانه ارزیابی شوند. رویدادهای بازخورد در محصول باید با گزارش تصمیم مسیریابی ترکیب شوند تا رضایت بر اساس رده به یک بعد تجمعی تبدیل شود. عدد کیفیت تجمعی، به خودی خود، از نظر ساختاری قادر به آشکار کردن افت کیفیت خاص یک رده نیست.

نمونه‌برداری رضایت دم بلند دومین افزودنی است. از آنجا که مشکل دم بلند در مجموع نامرئی است، معماری اندازه‌گیری باید برای قابل مشاهده کردن آن، از دم بلند بیش از حد نمونه‌برداری کند. این بدان معناست که نمونه‌برداری بیشتر از درخواست‌هایی که طبقه‌بندی‌کننده در مورد آن‌ها کمترین اطمینان را داشت، یا از درخواست‌هایی که خارج از مرکز ثقل توزیع آموزشی طبقه‌بندی‌کننده قرار دارند. هدف، سوگیری مجموعه بررسی انسانی به سمت درخواست‌های آسان نیست، همانطور که نمونه‌برداری ساده انجام می‌دهد. هدف، بیش از حد وزن دادن به درخواست‌هایی است که انتخاب مدل واقعاً در آن‌ها اهمیت دارد.

رانش اطمینان مسیریابی، سومین مورد است. خود طبقه‌بندی‌کننده منبعی از سیگنال کیفیت است که اکثر تیم‌ها آن را نظارت نمی‌کنند. توزیع امتیازات اطمینان بر روی ترافیک تولیدی باید در برابر توزیع مشاهده شده در طول آموزش ردیابی شود. هنگامی که توزیع تولیدی جابجا می‌شود، طبقه‌بندی‌کننده خارج از محدوده کالیبره شده خود عمل می‌کند، و تصمیمات مسیریابی به طور فزاینده‌ای غیرقابل اعتماد می‌شوند. سیگنال رانش هفته‌ها قبل از سیگنال کیفیت ظاهر می‌شود، که زمان لازم برای تیم برای تصحیح مسیر است.

این سه افزودنی، چک‌لیستی برای امتیازدهی نیستند. آن‌ها یک معماری اندازه‌گیری هستند که در آن هر جزء یک کلاس از شکست را آشکار می‌کند که دیگران نمی‌توانند ببینند. آن‌ها با هم، تله پارتو را در عرض چند روز به جای چند ماه قابل مشاهده می‌کنند. هزینه پیاده‌سازی آن‌ها در زمان مهندسی بسیار کمتر از هزینه اجرای یک رگرسیون کیفیتی تشخیص داده نشده برای یک سه‌ماهه است.

دو نکته برای تیم‌هایی که این را در نظر می‌گیرند. اولاً، استقرار معکوس این اندازه‌گیری‌ها بسیار دشوارتر از ساخت آن‌ها در کنار لایه مسیریابی است. انجام آن قبل از راه‌اندازی شاید سه هفته مهندسی هزینه داشته باشد. انجام آن پس از بروز مشکل کیفیت اغلب نیاز به بازسازی داده‌هایی دارد که ثبت نشده‌اند. ثانیاً، معماری اندازه‌گیری بیش از خود تصمیم مسیریابی اهمیت دارد. تیمی با مشاهده‌پذیری خوب به ازای هر رده می‌تواند با مسیریابی تهاجمی به طور ایمن آزمایش کند زیرا رانش را تشخیص خواهد داد. تیمی بدون آن نمی‌تواند هیچ لایه مسیریابی را در مقیاس به طور ایمن عملیاتی کند.

جایگزین چه شکلی دارد

اگر راهکار اجماع‌یافته مسیریابی اولیه توسط طبقه‌بندی‌کننده یک تله پارتو باشد، سوال واضح این است که الگوی جایگزین چیست. یک الگوی جایگزین وجود دارد که به طور معنی‌داری بهتر است، هرچند دارای مبادلات خاص خود است.

این الگو یک آبشار با مسیریابی بر اساس عدم اطمینان است. به جای طبقه‌بندی اولیه یک درخواست به عنوان ساده یا پیچیده قبل از اینکه هر مدلی آن را لمس کند، هر درخواست با مدل ارزان‌تر شروع می‌شود. مدل ارزان یک پاسخ با یک امتیاز اطمینان کالیبره شده تولید می‌کند، یا از طریق یک تخمین عدم اطمینان داخلی یا از طریق یک مرحله ارزیابی خودکار صریح که به پاسخ اضافه می‌شود. هنگامی که اطمینان بالا باشد، پاسخ مستقیماً به کاربر برمی‌گردد. هنگامی که اطمینان زیر یک آستانه قرار می‌گیرد، درخواست به مدل توانمند ارتقا می‌یابد، و پاسخ آن ارائه می‌شود.

این الگو حالت شکست را معکوس می‌کند. مدل ارزان اکنون به جای اینکه توسط یک طبقه‌بندی‌کننده در مورد آن تصمیم‌گیری شود، برای خودش تصمیم می‌گیرد. درخواست‌های سخت، که مدل ارزان با اطمینان به اشتباه پاسخ می‌داد، اکنون به عنوان عدم اطمینان پایین ظاهر شده و باعث ارتقا می‌شوند. مدل گران‌قیمت این موارد را مدیریت می‌کند. نمایه هزینه به توزیع اطمینان مدل ارزان بستگی دارد، اما در بررسی ما از مورد پشتیبانی مشتری، صرفه‌جویی‌های مدل‌شده تقریباً در همان محدوده رویکرد مسیریابی اولیه قرار گرفت، با کیفیت به طور مادی بهتر در دم بلند.

دو بهبود با آبشار ترکیب می‌شوند. امتیازدهی سایه، مدل توانمند را روی درصد کمی از ترافیک تولیدی به موازات مدل ارزان اجرا می‌کند، حتی زمانی که مدل ارزان مطمئن است، تا رانش در شرایط واقعی تولید را تشخیص دهد. مسیریابی وزنی-کیفیتی، سیگنال رضایت مشاهده شده را به تنظیم آستانه در طول زمان بازمی‌گرداند، بنابراین آبشار با تکامل توزیع تولیدی سازگار می‌شود.

آبشار دارای مبادلاتی است که رویکرد مسیریابی اولیه ندارد. تاخیر در درخواست‌های ارتقا یافته تقریباً برابر با مجموع تاخیر مدل ارزان و تاخیر مدل توانمند است، که به طور معنی‌داری بدتر از مسیریابی اولیه خواهد بود. پیش‌بینی هزینه از قبل دشوارتر است زیرا به توزیع اطمینان تولیدی بستگی دارد. پیچیدگی پیاده‌سازی به طور متوسط بالاتر است زیرا کالیبره کردن اطمینان مدل ارزان خود به خود دشوار است.

این مبادلات واقعی هستند و ارزش بررسی دارند. اما آن‌ها مبادلات در برابر کف کیفیتی هستند که رویکرد آبشار حفظ می‌کند و رویکرد مسیریابی اولیه آن را حفظ نمی‌کند. در استقرارهای تولیدی که دم بلند هزینه مشتری قابل توجهی را به همراه دارد، الگوی آبشار انتخاب معماری صادقانه است. برای تیم‌هایی که عامل‌های هوش مصنوعی برای اتوماسیون کسب و کار را در مقیاس تولیدی معنی‌دار معماری می‌کنند، الگوی آبشار با مشاهده‌پذیری، الگویی است که یک سه‌ماهه ترافیک واقعی را دوام می‌آورد.

لایه بهینه‌سازی مهم‌تر از خود بهینه‌سازی است

اولین تیمی که در این مقاله توصیف کردم، در نهایت به یک معماری پایدار رسید که آبشارهای مسیریابی بر اساس عدم اطمینان را با مشاهده‌پذیری به ازای هر رده ترکیب می‌کرد. هزینه استنتاج ماهانه آن‌ها تقریباً ۳۵% کمتر از خط مبنای قبل از بهینه‌سازی تثبیت شد، که کمتر از صرفه‌جویی‌ای است که رویکرد مسیریابی اولیه روی کاغذ به دست آورده بود. رضایت مشتری آن‌ها به سطوح قبل از آزمایش بازگشت. ارزش خالص محصول استقرار، با در نظر گرفتن هر دو لایه، به طور معنی‌داری مثبت است.

درسی که تیم از این تجربه گرفت این نبود که بهینه‌سازی هزینه اشتباه است. بلکه این بود که بهینه‌سازی هزینه انتخابی است در مورد اینکه به کدام لایه از سیستم برای انجام مبادله صحیح اعتماد می‌کنید. مسیریابی اولیه به یک طبقه‌بندی‌کننده اعتماد می‌کند که نمی‌تواند آنچه را که مهم است ببیند. آبشارها به خود مدل اعتماد می‌کنند که آنچه را نمی‌داند، می‌داند.

بهینه‌سازی ارزان، بهینه‌سازی‌ای است که بی‌سر و صدا محصول را خراب می‌کند. بهینه‌سازی صادقانه از نظر معماری، بهینه‌سازی‌ای است که دم بلند را دوام می‌آورد. در هوش مصنوعی تولیدی، تفاوت معمولاً یک سه‌ماهه رضایت مشتری است.