این تیم در سهماهه گذشته قبض استنتاج هوش مصنوعی خود را بیش از نصف کاهش داد. هشت هفته کار مهندسی دقیق. این پیروزیای بود که تیم مهندسی در تمام سال به دنبال آن بود. همچنین بهینهسازی اشتباهی بود. سه ماه بعد، رضایت مشتری در حال کاهش بود، نرخ ریزش مشتری در حال افزایش بود، و صرفهجویی در هزینه به طور ساختاری به کاهش کیفیت گره خورده بود. ما پیروز نشده بودیم. فقط هزینه را به جایی منتقل کرده بودیم که آن را اندازهگیری نمیکردیم.
این الگویی است که انتظار دارم در طول شش ماه آینده در استقرارهای هوش مصنوعی در محیط عملیاتی مشاهده کنم. گفتگوی سال ۲۰۲۶ پیرامون اقتصاد هوش مصنوعی، یک راهکار اجماعیافته را ایجاد کرده است. درخواستهای ساده را به مدلهای ارزانتر مسیریابی کنید. درخواستهای پیچیده و گران را روی مدلهای توانمند نگه دارید. قبض را کاهش دهید، کیفیت را حفظ کنید. هر مدیر مالی این محاسبات را دیده است. هر تیم مهندسی آن را ساخته یا در حال ساختن آن است.
محاسبات واقعی هستند. تله پارتو نیز واقعی است.
مطلب زیر چیزی است که من پس از تحلیل پس از شکست به تیم گفتم. این مطلب معماریای را که آنها ساختند، حالت شکستای را که با آن مواجه شدند، روش شناساییای را که میتوانست زودتر آن را ردیابی کند، و الگوی معماریای را که باید به جای آن میساختند، توصیف میکند. همچنین شامل دو استقرار دیگر است که پس از این مورد حسابرسی کردم، که در آنها همین الگو در صنایع مختلف ظاهر شد. شواهد ترکیبی نشان میدهد که لایههای مسیریابی بهینهسازی هزینه، به شکلی که راهکار اجماعیافته تجویز میکند، در محیط عملیاتی از نظر ساختاری شکننده هستند.
آنچه ما ساختیم
این تیم یک عامل هوش مصنوعی پشتیبانی مشتری برای یک محصول SaaS با تقریباً ۴ میلیون کاربر فعال ماهانه را اداره میکرد. این عامل بر روی یک مدل توانمند واحد، یعنی بالاترین رده مدل استدلالی در پشته آنها در زمان ساخت، اجرا میشد. حجم استنتاج به اندازهای بالا بود که قبض ماهانه از ارائهدهنده مدل آنها به شش رقم رسیده و با افزایش پذیرش در حال افزایش بود.
لایه مسیریابی از نظر مفهومی شفاف بود. یک مدل طبقهبندیکننده کوچک، که به طور سفارشی روی تقریباً ۲۰۰,۰۰۰ درخواست پشتیبانی مشتری با برچسبهای کیفی آموزش دیده بود، در جلوی عامل اصلی قرار میگرفت و هر درخواست ورودی را "ساده" یا "پیچیده" برچسبگذاری میکرد. درخواستهای ساده به یک مدل ارزانتر در همان خانواده ارائهدهنده مسیریابی میشدند. درخواستهای پیچیده همچنان به مدل توانمند مسیریابی میشدند. خود طبقهبندیکننده یک رمزگذار تنظیمشده بود که به اندازهای سبک بود که در کمتر از ۳۰ میلیثانیه با سربار هزینه ناچیز اجرا شود.
طبقهبندی بر اساس مشاهدات تولیدی ساخته شده بود. درخواستهای ساده مواردی بودند که تیم بارها دیده بود: جستجوهای حساب، سوالات مربوط به وضعیت صورتحساب، بازنشانی رمز عبور، ردیابی سفارش و سوالات مربوط به ساعات کاری. درخواستهای پیچیده مواردی بودند که از نظر تاریخی نیاز به استدلال دقیق و چندمرحلهای داشتند: اختلافات بازپرداخت، تبادلات مربوط به تغییر طرح، عیبیابی ادغام، و ناهنجاریهای چرخه صورتحساب. این تقسیمبندی در یک هفته نماینده از ترافیک تولیدی، حدود ۶۵ درصد ساده و ۳۵ درصد پیچیده بود.
مدل ارزانتری که تیم انتخاب کرده بود، حدود یک چهارم هزینه هر توکن مدل توانمند بود. برای درخواستهای سادهای که طبقهبندیکننده به آن ارسال میکرد، ارزیابی کنار به کنار در مقابل مدل توانمند، کیفیت پاسخ معادل را در ۹۴ درصد از یک مجموعه داده نگهداشته شده ۵,۰۰۰-درخواستی نشان داد. شکاف ۶ درصدی قابل مشاهده بود، اما تیم آن را با توجه به کاهش هزینه قابل قبول دانست. آنها کیفیت مدل ارزانتر را از طریق خط لوله ارزیابی موجود خود که پاسخهای تولیدی را برای بررسی انسانی در حدود نیم درصد از ترافیک نمونهبرداری میکرد، نظارت میکردند.
ساخت این سیستم هشت هفته طول کشید. سه مهندس، یک متخصص یادگیری ماشین، با تخصیص جزئی. آنها اعتبارسنجی طرحواره را بین طبقهبندیکننده و مدلهای پاییندست، ابزارسازی روی تصمیم مسیریابی، و یک مسیر بازگشتی در صورت شکست خود طبقهبندیکننده اضافه کردند. استقرار تدریجی بود. پنج درصد از ترافیک برای هفته اول، سپس ده، سپس بیست و پنج، سپس پنجاه، و سپس استقرار کامل در طول شش هفته. هر مرحله استقرار، معیارهای کیفیت را در محدوده سبز نگه داشت. تاخیر در محدوده هدف موجود آنها باقی ماند. هزینه متناسب با سهم مسیریابی کاهش یافت.
تا پایان هفته هشتم، صورتحساب استنتاج ماهانه تقریباً به ۴۰% سطح قبلی خود کاهش یافته بود. تیم مهندسی این کار را در جلسات عمومی شرکت ارائه کرد. مدیر مالی یادداشتی تشکرآمیز برای تیم هوش مصنوعی ارسال کرد. معیارهای پذیرش در داخل عامل ثابت یا کمی مثبت باقی ماندند. تیم به اولویت سه ماهه بعدی خود پرداخت.
کار قوی بود. معماری منطقی بود. نظارت برقرار بود. تیم کاری را انجام داده بود که هر مقاله اخیر در مورد بهینهسازی هزینه هوش مصنوعی توصیه کرده بود. هر تصمیم فردی قابل دفاع بود. با این حال، سیستم ترکیبی، شکاف کیفیتی ایجاد کرده بود که معماری اندازهگیری موجود قادر به دیدن آن نبود.
این شکاف سه ماه طول کشید تا در معیارهای کسب و کار ظاهر شود و یک ماه دیگر طول کشید تا به درستی به آن نسبت داده شود. زمانی که آنها متوجه شدند چه اتفاقی افتاده است، چهار ماه گذشته بود و تاثیر بر مشتری از قبل در اتاق بود.
آنچه اندازهگیری کردیم (و آنچه اندازهگیری نکردیم)
معماری ارزیابی تیم قبل از ساخت لایه مسیریابی بر اساس این فرض بود که آنها یک مدل واحد را اجرا میکنند. سیگنال کیفیت از سه منبع میآمد. یک نمونه بررسی انسانی روزانه از حدود ۲۰۰ پاسخ، که برای دقت و کارایی امتیازدهی میشد. یک مجموعه رگرسیون آفلاین تقریباً ۱۲,۰۰۰ درخواست برچسبگذاری شده که هفتگی در برابر مدل تولیدی اجرا میشد. و یک سیگنال رضایت از ویجت بازخورد داخلی عامل، که کاربران میتوانستند پاسخها را با لایک یا دیسلایک امتیاز دهند.
زمانی که لایه مسیریابی فعال شد، تیم نمونه بررسی انسانی را گسترش داد تا همان تعداد ۲۰۰ بررسی روزانه را حفظ کند اما آن را بر اساس رده مسیریابی جدا نکرد. آنها مدل ارزانتر را به مجموعه رگرسیون آفلاین اضافه کردند، که در آن در محدوده آستانه پذیرش آنها امتیاز گرفت. آنها ویجت بازخورد داخلی محصول را بدون تغییر رها کردند زیرا راهی برای تعیین اینکه کدام مدل پاسخ را ارائه کرده بود نداشت.
در بازنگری، این سه انتخاب اندازهگیری بذر مشکل بودند. نمونه کلی بررسی انسانی نشان داد که کیفیت در حدود خط مبنای قبل از مسیریابی حفظ شده است. مجموعه رگرسیون آفلاین نشان داد که مدل ارزانتر در زیرردیف خود موفق عمل کرده است. مجموعه ویجت بازخورد در محصول در محدوده واریانس تاریخی باقی ماند. هر چیزی که آنها میتوانستند ببینند سبز بود.
آنچه آنها نمیدیدند، در سه لایه مختلف ظاهر شد.
نمونه بررسی انسانی، که بدون نمونهبرداری آگاه از رده انجام شده بود، به طور مؤثری یک میانگین وزنی بود، با ۶۵ درصد از بررسیها روی مدل ارزان و ۳۵ درصد روی مدل توانمند. از آنجا که مدل ارزان در موارد آسان (مرکز پرحجم توزیع درخواستهای ساده) معادل بود، میانگین را بالا میبرد. مسائل کیفیتی در لبههای سختتر توزیع درخواستهای ساده، در مجموع به حدی رقیق میشدند که نامرئی میشدند.
مجموعه رگرسیون آفلاین هر دو مدل را در برابر مجموعههای درخواست منتخب آزمایش میکرد، اما انتخاب ایستا بود. این مجموعه شش ماه قبل از استقرار، زمانی که تیم هیچ تصوری از مسیریابی نداشت، ساخته شده بود. این مجموعه توزیع ایدهآل را به جای توزیع واقعی تولیدی که مدل ارزان اکنون باید مدیریت میکرد، منعکس میکرد. مدل ارزان از مجموعه ایستایی عبور کرد اما در لبه فعال رو به زوال گذاشت.
ویجت بازخورد داخلی محصول یک مشکل ساختاری داشت که تیم بیش از یک سال از آن آگاه بود اما آن را در اولویت رفع قرار نداده بود. بازخورد مشتری پراکنده بود. یک جلسه معمولی هیچ امتیازی تولید نمیکرد. مشتریان در حدود ۳ بار در هر ۱۰۰۰ تعامل، پاسخها را دیسلایک میکردند، و این دیسلایکها به سمت مشتریانی متمایل بود که از چیز دیگری کاملاً ناامید شده بودند. نسبت سیگنال به نویز در ویجت برای تشخیص هر تغییری کوچکتر از یک رگرسیون عمده بسیار پایین بود.
هیچ یک از این شکستها مختص لایه مسیریابی نبود. آنها در معماری اندازهگیری نهفته بودند. لایه مسیریابی فقط آنها را آشکار کرد. تا زمانی که سیستم روی یک مدل واحد اجرا میشد، شکافهای اندازهگیری نتایج مثبت کاذب تولید نمیکردند، زیرا تنها یک توزیع کیفیت برای اندازهگیری وجود داشت. لایه مسیریابی دو توزیع کیفیت را معرفی کرد، اما معماری موجود نمیتوانست آنها را به طور جداگانه مشاهده کند.
افت کیفیت در رده مدل ارزان در هفته سوم پس از استقرار کامل آغاز شد. تا هفته ششم، افت در مجموعه رگرسیون قابل اندازهگیری بود، اما تیم رگرسیون کوچک را به عنوان افت نسخه مدل از ارائهدهنده خود تفسیر کرد تا مربوط به مسیریابی، زیرا آنها تحلیل خود را بر اساس رده تقسیمبندی نمیکردند. تا هفته دهم، تأثیر تجمعی بر رضایت مشتری در معیارهای محصول مشهود بود. تا هفته سیزدهم، نرخ ریزش مشتری به طور قابل اندازهگیری بالاتر از خط مبنای قبلی بود.
این نقطهای بود که تیم با من تماس گرفت.
آنچه شکست خورد و چگونه آن را پیدا کردیم
تشخیص دو هفته طول کشید. ما تصمیمات مسیریابی را از گزارش ابزارسازی بازسازی کردیم، آنها را با رویدادهای بازخورد در محصول ترکیب کردیم و یک نمای کیفیتی به ازای هر رده ساختیم که تیم قبلاً ندیده بود.
الگو بلافاصله در رده مدل ارزان ظاهر شد. مدل ارزان تقریباً ۸۰ درصد از درخواستهایی را که طبقهبندیکننده به آن ارسال میکرد، به خوبی انجام میداد، که با یافته کیفیت معادل از مجموعه نگهداشته شده ۵,۰۰۰-درخواستی اولیه مطابقت داشت. اما ۲۰ درصد دیگر در محیط عملیاتی از جهاتی با مجموعه نگهداشته شده تفاوت ساختاری داشتند که طبقهبندیکننده در زمان تصمیمگیری نمیتوانست آنها را تشخیص دهد.
واضحترین مثال درخواستهای صورتحساب بود. طبقهبندیکننده برای تشخیص الگوهایی مانند "شارژ من از کجا آمده است" یا "من دو بار صورتحساب دریافت کردم" به عنوان درخواستهای ساده آموزش دیده بود، با این فرض که جستجوی حساب به همراه بازیابی صورتحساب یک الگوی پاییندست قابل اعتماد است. در آزمایش مجموعه نگهداشته شده، این درست بود. در محیط عملیاتی، بخش قابل توجهی از آن درخواستهای صورتحساب، نیات پیچیدهتری را پنهان میکردند. کاربری که میپرسید "شارژ من از کجا آمده است" گاهی اوقات در مورد یک شارژ کلاهبرداری واقعی میپرسید، گاهی اوقات در مورد یک تطابق تاخیری بین دو سیستم، و گاهی اوقات در مورد تغییر چرخه صورتحسابی که به آنها اطلاع داده نشده بود. مدل توانمند به آرامی این نیات تو در تو را به درستی مدیریت میکرد زیرا فضای کافی برای دنبال کردن مکالمه به سمت پیچیدگی را داشت. مدل ارزان هر یک از آنها را به عنوان نیت سطح ظاهر در نظر میگرفت و به سوالی پاسخ میداد که مشتری در واقع نپرسیده بود.
مشتریانی که آن پاسخهای اشتباه را دریافت میکردند، همیشه دیسلایک نمیکردند. بسیاری از آنها فقط از عامل خارج شده و در عوض با خط پشتیبانی تماس میگرفتند. بنابراین، سیگنال دیسلایک، شکست را کمتر از واقعیت نشان میداد. هزینه شکست به تیم پشتیبانی انسانی منتقل میشد، که همان درخواست را برای بار دوم مدیریت میکردند، و هزینه انسانی از بودجهای متفاوت پرداخت میشد. اثر کلی این بود که نرخ انحراف اندازهگیری شده عامل هوش مصنوعی ثابت ماند در حالی که حجم واقعی پشتیبانی انسانی شروع به افزایش کرد.
تیم افزایش حجم پشتیبانی انسانی را به لایه مسیریابی متصل نکرده بود زیرا دو تیم در مراکز هزینه مختلف فعالیت میکردند و این ارتباط در هیچ داشبورد واحدی قابل مشاهده نبود.
تأثیر تجمعی بر رضایت مشتری به طور دقیقتر قابل اندازهگیری نبود، اما در نهایت به دو روش ظاهر شد. اول، گروهی از مشتریان که در طول دوره استقرار لایه مسیریابی با عامل تعامل داشتند، در نظرسنجی پیگیری ۹۰ روز پس از تعامل، نمرات رضایت کمتری نسبت به گروه مبنا از قبل از استقرار نشان دادند. دوم، حفظ مشتری در نقطه ۶ ماهه نسبت به خط مبنای قبلی رو به کاهش بود، با شدیدترین افت در بخشهایی که بیشتر در معرض الگوهای مسیریابی ناموفق بودند.
هنگامی که ما اعداد را با هم بررسی کردیم، تأثیر هزینه ناشی از کاهش کیفیت به طور محافظهکارانه چهار تا پنج برابر صرفهجویی در هزینه از طریق لایه مسیریابی بود. تیم هزینههای استنتاج را حدود ۱۰۰,۰۰۰ دلار در ماه کاهش داده بود و هزینههای حفظ مشتری و پشتیبانی بین ۴۰۰,۰۰۰ تا ۵۰۰,۰۰۰ دلار در ماه متحمل شده بود. محاسبات، پس از مشاهده کامل، بدون ابهام بود.
این ویژگی ساختاری تله پارتو است. صرفهجویی در هزینه در لایه استنتاج توسط تیمی که سیستم مسیریابی را ساخته است، اندازهگیری میشود. هزینه از دست دادن کیفیت توسط تجربه مشتری، تیم پشتیبانی انسانی، و عملکرد حفظ مشتری تحمل میشود، که هیچ یک از آنها متعلق به تیمی نیستند که بهینهسازی را انجام داده است. هر تیم بودجه خود را بهینه میکند. بهینهسازی ترکیبی منفی است.
تیم در هفته شانزدهم، لایه مسیریابی را به یک تنظیم بسیار محافظهکارانهتر برگرداند. تا هفته بیستم، روند رضایت مشتری در حال معکوس شدن بود. تا هفته بیست و هشتم، اعداد حفظ مشتری به خط مبنا بازگشته بودند. کل هزینه صرف شده برای این آزمایش، بین صرفهجوییهای بازیافتی و تأثیر وارده بر مشتری، تقریباً دو سهماهه ارزش محصول منفی خالص بود.
چرا مدلهای ارزان در دم بلند شکست میخورند
دلیل ساختاری بودن این الگو، نه موقعیتی بودن آن، ارزش درنگ دارد. این موضوع به مدل خاصی که تیم انتخاب کرده بود، ارائهدهنده خاص، یا طبقهبندیکننده خاصی که آنها آموزش داده بودند، مربوط نمیشود. بلکه به هندسه فضای مسئله مربوط است.
درخواستهای مشتری در هر استقرار هوش مصنوعی در محیط عملیاتی، از توزیع قانون توانی دشواری پیروی میکنند. حجم زیادی از درخواستها در مرکز آسان جمع میشوند. حجم کوچکتری به دم بلند درخواستهای دشوارتر، مبهمتر و وابسته به متن گسترش مییابد. مدلهای پیشرفته برای مرکز آسان بیش از حد ظرفیتگذاری شدهاند. آنها قابلیتهای بسیار بیشتری از آنچه برای پاسخ به "چه ساعتی باز میکنید؟" نیاز است، دارند. این ظرفیتگذاری بیش از حد دقیقاً به همین دلیل است که فرصت بهینهسازی هزینه واقعی است. مسیریابی مرکز آسان به یک مدل ارزانتر میتواند صرفهجوییهای واقعی را بدون فدا کردن کیفیت در آن درخواستها به همراه داشته باشد.
مشکل این است که طبقهبندیکنندهها نمیتوانند به طور قابل اعتمادی مرکز آسان را از دم بلند در زمان تصمیمگیری جدا کنند. طبقهبندیکننده شکل ظاهری یک درخواست را میبیند. دم بلند زیر اشکال ظاهری پنهان است که آسان به نظر میرسند. درخواستی که به نظر "شارژ من از کجا آمده است" میرسد، میتواند یک جستجوی حساب ساده یا خط آغازین یک تحقیقات کلاهبرداری باشد که نیاز به استدلال دقیق و چندمرحلهای دارد. طبقهبندیکننده کلمات مشابهی را میبیند. مدل ارزان همان پاسخ ظاهری را میدهد. مشتری در مورد کلاهبرداری، پاسخ اشتباهی به سوالی که در واقع نمیپرسید دریافت میکند.
این همان مشکل فشردهسازی دم بلند است. شکل ظاهری یک پیشبینیکننده ضعیف از عمق نیت برای مهمترین درخواستها است. درخواستهایی که شکل ظاهری در آنها قابل اعتمادترین است، موارد آسان هستند، که همچنین مواردی هستند که انتخاب مدل در آنها کمترین اهمیت را دارد. درخواستهایی که شکل ظاهری در آنها کمترین قابلیت اطمینان را دارد، موارد سخت هستند، که انتخاب مدل در آنها بیشترین اهمیت را دارد. طبقهبندیکننده دقیقاً در جایی که لازم نیست کالیبره شده است، و دقیقاً در جایی که لازم است، به درستی کالیبره نشده است.
مکانیزم دومی نیز وجود دارد. مدلهای پیشرفته تمایل به حالتهای شکست قابل بازیابی دارند. آنها گاهی اوقات ابهام میکنند، درخواست شفافسازی میکنند، یا عدم اطمینان خود را به گونهای نشان میدهند که یک انسان را به مداخله وادار میکند. مدلهای کوچکتر اغلب با اطمینان شکست میخورند. آنها یک پاسخ کامل، معقول و از نظر ظاهری منسجم تولید میکنند که در مورد نیت واقعی اشتباه است. تشخیص اشتباه بودن پاسخ برای مشتری دشوارتر از یک پاسخ مبهم است، به این معنی که شکست برای مدت طولانیتری بدون پرچم میماند.
مکانیزم سوم، رانش است. توزیع درخواستهای تولیدی تکامل مییابند. محصولات جدید عرضه میشوند. گروههای جدیدی از مشتریان وارد میشوند. حالتهای شکست جدیدی پدیدار میشوند. طبقهبندیکنندهای که بر اساس شش ماه ترافیک تاریخی آموزش دیده است، به تدریج بخش فزایندهای از درخواستها را به اشتباه مسیریابی میکند زیرا توزیع از مجموعه آموزشی آن فاصله میگیرد. صرفهجویی در هزینه ثابت باقی میماند زیرا لایه مسیریابی همچنان ترافیک را با همان نرخ به مدل ارزانتر میفرستد. هزینه کیفیت به آرامی رشد میکند، زیرا طبقهبندیکننده به طور فزایندهای در مورد اینکه کدام درخواستها واقعاً ساده هستند، اشتباه میکند.
هندسه ترکیبی بیرحمانه است. رده مدل ارزان، حجم آسان را به خوبی مدیریت میکند، در دم بلند پنهان به طور مبهم شکست میخورد، و با رانش توزیع بیشتر نیز رو به زوال میرود. صرفهجوییها در یک داشبورد قابل مشاهده هستند. هزینه به وسیله افرادی پرداخت میشود که تصمیم مسیریابی را نمیبینند.
این همان چیزی است که لایههای مسیریابی را به جای یک بهینهسازی پر سر و صدا، به یک تله پارتو تبدیل میکند. هندسه ساختاری است.
دو تیم دیگر که پس از این مورد حسابرسی کردم
پس از بررسی این مورد، من شروع به جستجو برای همان الگو در سایر استقرارهای هوش مصنوعی که به آنها دسترسی داشتم، کردم. دو مورد به سرعت ظاهر شدند.
اولین مورد یک شرکت SaaS میانرده با دستیار هوش مصنوعی موفقیت مشتری بود. مقیاس کوچکتر از تیم اول، هزینه استنتاج ماهانه در پنج رقم پایین به جای شش رقم. الگوی معماری مشابه. آنها چهار ماه قبل یک لایه مسیریابی ساخته بودند که درخواستهای ساده (که توسط یک طبقهبندیکننده شباهت جاسازی به جای یک رمزگذار تنظیمشده تعریف میشد) را به یک مدل ارزانتر ارسال میکرد. صرفهجویی در هزینه در حدود پنجاه درصد بود. معیارهای کیفیت در داشبورد داخلی آنها سبز بود.
هنگامی که ما سیگنال بازخورد آنها را بر اساس رده مسیریابی تقسیمبندی کردیم، رده مدل ارزان نمره رضایت معنیداری پایینتری برای درخواستهای دم بلند داشت که طبقهبندیکننده جاسازی آنها را ساده برچسبگذاری کرده بود. تیم نسبت به این شکاف کور بود زیرا داشبورد کلی، دو رده را در یک عدد جمع کرده بود. آنها تأثیر بر اعتماد مشتری را تقریباً دو و نیم تا سه برابر صرفهجویی در هزینه تخمین زدند، اگرچه اندازهگیری آنها کمتر از تیم اول دقیق بود. آنها لایه مسیریابی را ظرف یک ماه از حسابرسی به سهم بسیار کوچکتری بازگرداندند.
دومین مورد، یک مورد در صنعت تنظیمشده فینتک بود. هزینه استنتاج ماهانه در شش رقم بالا. آنها یک لایه مسیریابی محافظهکارانهتر ساخته بودند که فقط درخواستهای "اطلاعاتی" (مانند موجودی حساب، تاریخچه تراکنشها، اطلاعات پایه محصول) را به یک مدل ارزانتر میفرستاد و هر چیزی که با انطباق یا تصمیمات مالی سر و کار داشت را روی مدل توانمند نگه میداشت.
الگو در اینجا به شکل متفاوتی ظاهر شد. صرفهجویی در هزینه کمتر بود زیرا سهم مسیریابی محافظهکارانهتر و در حدود ۲۰% بود. اما شکست دم بلند در رده مدل ارزان دارای پیامدهای انطباق بود زیرا برخی از درخواستهایی که به نظر اطلاعاتی میرسیدند در واقع وزن نظارتی داشتند. مشتریای که میپرسید "نرخ بهره من چقدر است" گاهی اوقات یک سوال پیگیری داشت که به دقت پاسخ اول بستگی داشت، که مدل ارزان نمیتوانست به طور قابل اعتمادی ارائه دهد. تیم انطباق آن را از طریق یک حسابرسی دستی قبل از تبدیل شدن به یک مسئله نظارتی ردیابی کرد، اما این تجربه آنها را وادار به بازگرداندن کامل مسیریابی کرد.
مورد فینتک به طور خاص روشنگر بود. این مورد روشن کرد که مبادله هزینه-کیفیت در صنایع مختلف متقارن نیست. در پشتیبانی مشتری، پاسخ اشتباه قابل جبران است. در صنایع تنظیمشده، پاسخ اشتباه میتواند یک تخلف باشد. تله پارتو در هر زمینهای که هزینههای دم بلند بالا یا محدود هستند، تقویت میشود.
در هر سه مورد، الگو ثابت بود. صرفهجویی در هزینه واقعی و قابل اندازهگیری بود. از دست دادن کیفیت واقعی بود و توسط معماری موجود قابل اندازهگیری نبود. تیمهایی که شکاف را تشخیص دادند، ماهها بعد، پس از آنکه معیارهای کسب و کار تأثیر را جذب کرده بودند، آن را یافتند. تیمهایی که آن را تشخیص ندادند، به بهینهسازیهای منفی خالص علیه مشتریان خود ادامه میدادند تا زمانی که داشبوردها سبز باقی میماندند.
تشخیص تله قبل از گذشت سه ماه
روش تشخیصی که میتوانست هر یک از این موارد را زودتر تشخیص دهد، ساده است، اما مستلزم تغییر معماری اندازهگیری قبل از فعال شدن لایه مسیریابی است. سه افزودنی مشخص به پشته مشاهدهپذیری.
نظارت بر کیفیت به ازای هر رده، اساسیترین مورد است. هر سیگنال کیفیت در معماری موجود باید بر اساس رده مسیریابی تقسیم شود، با برچسب رده که از ابتدا تا انتها از طریق ابزارسازی منتشر میشود. نمونههای بررسی انسانی باید طبقهبندی شوند تا هر رده بررسی متناسب یا بیش از حد نمونهبرداری شده دریافت کند. مجموعههای رگرسیون آفلاین باید به زیرمجموعههای خاص رده تقسیم شده و به طور جداگانه ارزیابی شوند. رویدادهای بازخورد در محصول باید با گزارش تصمیم مسیریابی ترکیب شوند تا رضایت بر اساس رده به یک بعد تجمعی تبدیل شود. عدد کیفیت تجمعی، به خودی خود، از نظر ساختاری قادر به آشکار کردن افت کیفیت خاص یک رده نیست.
نمونهبرداری رضایت دم بلند دومین افزودنی است. از آنجا که مشکل دم بلند در مجموع نامرئی است، معماری اندازهگیری باید برای قابل مشاهده کردن آن، از دم بلند بیش از حد نمونهبرداری کند. این بدان معناست که نمونهبرداری بیشتر از درخواستهایی که طبقهبندیکننده در مورد آنها کمترین اطمینان را داشت، یا از درخواستهایی که خارج از مرکز ثقل توزیع آموزشی طبقهبندیکننده قرار دارند. هدف، سوگیری مجموعه بررسی انسانی به سمت درخواستهای آسان نیست، همانطور که نمونهبرداری ساده انجام میدهد. هدف، بیش از حد وزن دادن به درخواستهایی است که انتخاب مدل واقعاً در آنها اهمیت دارد.
رانش اطمینان مسیریابی، سومین مورد است. خود طبقهبندیکننده منبعی از سیگنال کیفیت است که اکثر تیمها آن را نظارت نمیکنند. توزیع امتیازات اطمینان بر روی ترافیک تولیدی باید در برابر توزیع مشاهده شده در طول آموزش ردیابی شود. هنگامی که توزیع تولیدی جابجا میشود، طبقهبندیکننده خارج از محدوده کالیبره شده خود عمل میکند، و تصمیمات مسیریابی به طور فزایندهای غیرقابل اعتماد میشوند. سیگنال رانش هفتهها قبل از سیگنال کیفیت ظاهر میشود، که زمان لازم برای تیم برای تصحیح مسیر است.
این سه افزودنی، چکلیستی برای امتیازدهی نیستند. آنها یک معماری اندازهگیری هستند که در آن هر جزء یک کلاس از شکست را آشکار میکند که دیگران نمیتوانند ببینند. آنها با هم، تله پارتو را در عرض چند روز به جای چند ماه قابل مشاهده میکنند. هزینه پیادهسازی آنها در زمان مهندسی بسیار کمتر از هزینه اجرای یک رگرسیون کیفیتی تشخیص داده نشده برای یک سهماهه است.
دو نکته برای تیمهایی که این را در نظر میگیرند. اولاً، استقرار معکوس این اندازهگیریها بسیار دشوارتر از ساخت آنها در کنار لایه مسیریابی است. انجام آن قبل از راهاندازی شاید سه هفته مهندسی هزینه داشته باشد. انجام آن پس از بروز مشکل کیفیت اغلب نیاز به بازسازی دادههایی دارد که ثبت نشدهاند. ثانیاً، معماری اندازهگیری بیش از خود تصمیم مسیریابی اهمیت دارد. تیمی با مشاهدهپذیری خوب به ازای هر رده میتواند با مسیریابی تهاجمی به طور ایمن آزمایش کند زیرا رانش را تشخیص خواهد داد. تیمی بدون آن نمیتواند هیچ لایه مسیریابی را در مقیاس به طور ایمن عملیاتی کند.
جایگزین چه شکلی دارد
اگر راهکار اجماعیافته مسیریابی اولیه توسط طبقهبندیکننده یک تله پارتو باشد، سوال واضح این است که الگوی جایگزین چیست. یک الگوی جایگزین وجود دارد که به طور معنیداری بهتر است، هرچند دارای مبادلات خاص خود است.
این الگو یک آبشار با مسیریابی بر اساس عدم اطمینان است. به جای طبقهبندی اولیه یک درخواست به عنوان ساده یا پیچیده قبل از اینکه هر مدلی آن را لمس کند، هر درخواست با مدل ارزانتر شروع میشود. مدل ارزان یک پاسخ با یک امتیاز اطمینان کالیبره شده تولید میکند، یا از طریق یک تخمین عدم اطمینان داخلی یا از طریق یک مرحله ارزیابی خودکار صریح که به پاسخ اضافه میشود. هنگامی که اطمینان بالا باشد، پاسخ مستقیماً به کاربر برمیگردد. هنگامی که اطمینان زیر یک آستانه قرار میگیرد، درخواست به مدل توانمند ارتقا مییابد، و پاسخ آن ارائه میشود.
این الگو حالت شکست را معکوس میکند. مدل ارزان اکنون به جای اینکه توسط یک طبقهبندیکننده در مورد آن تصمیمگیری شود، برای خودش تصمیم میگیرد. درخواستهای سخت، که مدل ارزان با اطمینان به اشتباه پاسخ میداد، اکنون به عنوان عدم اطمینان پایین ظاهر شده و باعث ارتقا میشوند. مدل گرانقیمت این موارد را مدیریت میکند. نمایه هزینه به توزیع اطمینان مدل ارزان بستگی دارد، اما در بررسی ما از مورد پشتیبانی مشتری، صرفهجوییهای مدلشده تقریباً در همان محدوده رویکرد مسیریابی اولیه قرار گرفت، با کیفیت به طور مادی بهتر در دم بلند.
دو بهبود با آبشار ترکیب میشوند. امتیازدهی سایه، مدل توانمند را روی درصد کمی از ترافیک تولیدی به موازات مدل ارزان اجرا میکند، حتی زمانی که مدل ارزان مطمئن است، تا رانش در شرایط واقعی تولید را تشخیص دهد. مسیریابی وزنی-کیفیتی، سیگنال رضایت مشاهده شده را به تنظیم آستانه در طول زمان بازمیگرداند، بنابراین آبشار با تکامل توزیع تولیدی سازگار میشود.
آبشار دارای مبادلاتی است که رویکرد مسیریابی اولیه ندارد. تاخیر در درخواستهای ارتقا یافته تقریباً برابر با مجموع تاخیر مدل ارزان و تاخیر مدل توانمند است، که به طور معنیداری بدتر از مسیریابی اولیه خواهد بود. پیشبینی هزینه از قبل دشوارتر است زیرا به توزیع اطمینان تولیدی بستگی دارد. پیچیدگی پیادهسازی به طور متوسط بالاتر است زیرا کالیبره کردن اطمینان مدل ارزان خود به خود دشوار است.
این مبادلات واقعی هستند و ارزش بررسی دارند. اما آنها مبادلات در برابر کف کیفیتی هستند که رویکرد آبشار حفظ میکند و رویکرد مسیریابی اولیه آن را حفظ نمیکند. در استقرارهای تولیدی که دم بلند هزینه مشتری قابل توجهی را به همراه دارد، الگوی آبشار انتخاب معماری صادقانه است. برای تیمهایی که عاملهای هوش مصنوعی برای اتوماسیون کسب و کار را در مقیاس تولیدی معنیدار معماری میکنند، الگوی آبشار با مشاهدهپذیری، الگویی است که یک سهماهه ترافیک واقعی را دوام میآورد.
لایه بهینهسازی مهمتر از خود بهینهسازی است
اولین تیمی که در این مقاله توصیف کردم، در نهایت به یک معماری پایدار رسید که آبشارهای مسیریابی بر اساس عدم اطمینان را با مشاهدهپذیری به ازای هر رده ترکیب میکرد. هزینه استنتاج ماهانه آنها تقریباً ۳۵% کمتر از خط مبنای قبل از بهینهسازی تثبیت شد، که کمتر از صرفهجوییای است که رویکرد مسیریابی اولیه روی کاغذ به دست آورده بود. رضایت مشتری آنها به سطوح قبل از آزمایش بازگشت. ارزش خالص محصول استقرار، با در نظر گرفتن هر دو لایه، به طور معنیداری مثبت است.
درسی که تیم از این تجربه گرفت این نبود که بهینهسازی هزینه اشتباه است. بلکه این بود که بهینهسازی هزینه انتخابی است در مورد اینکه به کدام لایه از سیستم برای انجام مبادله صحیح اعتماد میکنید. مسیریابی اولیه به یک طبقهبندیکننده اعتماد میکند که نمیتواند آنچه را که مهم است ببیند. آبشارها به خود مدل اعتماد میکنند که آنچه را نمیداند، میداند.
بهینهسازی ارزان، بهینهسازیای است که بیسر و صدا محصول را خراب میکند. بهینهسازی صادقانه از نظر معماری، بهینهسازیای است که دم بلند را دوام میآورد. در هوش مصنوعی تولیدی، تفاوت معمولاً یک سهماهه رضایت مشتری است.