توسط Billy Perrigo
March 2, 2025 7:00 AM EST
(برای دریافت ایمیلهای هفتگی گفتگو با مدیران عامل برتر و تصمیمگیرندگان جهان، اینجا کلیک کنید.)
IBM یکی از غولهای محاسباتی قرن بیستم بود. این شرکت به طراحی رایانه شخصی مدرن کمک کرد و اولین هوش مصنوعی را ایجاد کرد که یک قهرمان انسانی را در بازی شطرنج شکست داد.
اما وقتی به هوش مصنوعی فکر میکنید، IBM ممکن است اولین یا حتی دهمین شرکتی نباشد که به ذهن شما خطور میکند. این شرکت مدلهای بزرگ را آموزش نمیدهد و دیگر محصولات رو به مصرف کننده تولید نمیکند، بلکه در عوض بر فروش به سایر مشاغل تمرکز دارد. آرویند کریشنا، مدیرعامل IBM، پیش از مصاحبه اخیر با TIME شوخی کرد: «ما یک شرکت B2B هستیم و توضیح اینکه چه کاری انجام میدهیم برای خواننده متوسط - ما تمام کمکهایی را که میتوانیم دریافت میکنیم، خواهیم گرفت.»
با این حال، یک داستان جالب هوش مصنوعی در داخل این موسسه تاریخی پنهان شده است. IBM در واقع مدلهای هوش مصنوعی میسازد - نه مدلهای عظیمی مانند GPT4-o OpenAI یا Gemini گوگل، بلکه مدلهای کوچکتری که برای استفاده در محیطهای پرمخاطره طراحی شدهاند، جایی که دقت در اولویت قرار دارد. با بلوغ تجارت هوش مصنوعی، این به یک سوال مهم و بی پاسخ در ذهن سرمایهگذاران وال استریت و سیلیکون ولی میرسد: آیا سودهای اقتصادی حاصل از هوش مصنوعی بیشتر به شرکتهایی میرسد که مدلهای بزرگ "بنیادی" مانند OpenAI را آموزش میدهند؟ یا اینکه به جای آن به شرکتهایی مانند IBM سرازیر میشوند که میتوانند مدلهای کم حجمتر، ارزانتر و دقیقتری را بسازند که برای موارد استفاده خاص طراحی شدهاند؟ آینده این صنعت ممکن است به آن بستگی داشته باشد.
TIME در اوایل فوریه با کریشنا، پیش از مراسمی که در آن جایزه TIME100 AI Impact به او اهدا شد، صحبت کرد.
این مصاحبه برای وضوح بیشتر خلاصه و ویرایش شده است.
IBM در دهه 1990 Deep Blue را ساخت، اولین هوش مصنوعی شطرنج که یک قهرمان انسانی را شکست داد. سپس، در سال 2011، Watson IBM اولین کسی بود که در بازی Jeopardy برنده شد. اما امروزه، IBM سیستمهای هوش مصنوعی بزرگی را به همان روشی که OpenAI یا Google آموزش میدهند، آموزش نمیدهد. آیا میتوانید توضیح دهید که چرا تصمیم گرفته شد که از مسابقه هوش مصنوعی عقبنشینی شود؟
وقتی به شطرنج و Jeopardy نگاه میکنید، دلیل پذیرش این چالشها درست بود. شما چیزی را انتخاب میکنید که مردم معتقدند رایانهها نمیتوانند انجام دهند و سپس اگر بتوانید آن را انجام دهید، قدرت فناوری را منتقل میکنید.
اینجا جایی بود که ما از مسیر منحرف شدیم: ما شروع به ساختن سیستمهایی کردیم که من آنها را یکپارچه مینامم. ما شروع کردیم به گفتن اینکه بیایید به مشکلی مانند سرطان حمله کنیم. این رویکرد اشتباهی بود. قطعاً ارزش حل کردن را دارد، بنابراین من از تیمهایمان در آن زمان ایرادی نمیگیرم. با این حال، آیا ما به عنوان پزشکان شناخته میشویم؟ خیر. آیا ما درک میکنیم که بیمارستانها و پروتکلها چگونه کار میکنند؟ خیر. آیا ما درک میکنیم که تنظیم کننده در آن منطقه چگونه کار میکند؟ خیر.
با نگاهی به گذشته، ای کاش فقط برای چند دقیقه در ابتدا به این موضوع فکر میکردیم.
بنابراین ما گفتیم، بسیار خوب، شما میتوانید مدلهای بزرگتر و بزرگتری تولید کنید و آنها محاسبات بیشتری را انجام میدهند. بنابراین گزینه اول، یک میلیارد دلار محاسبات را انجام دهید و یک مدل تولید کنید. اکنون برای بازگشت سرمایه، باید مبلغ مشخصی را از مردم دریافت کنید. اما آیا میتوانیم آن را به یک مدل بسیار کوچکتر تقطیر کنیم که ممکن است به اندازه محاسبات نیاز نداشته باشد و اجرای آن بسیار بسیار ارزانتر باشد، اما یک مدل متناسب با هدف برای یک کار در یک زمینه تجاری است؟ این چیزی است که منجر به لنز تجاری شد.
اما یکی از مهمترین نتایج 10 سال گذشته در یادگیری عمیق این است که شما میتوانید با تلاش برای ایجاد یک سیستم عمومیتر از تلاش برای ایجاد یک سیستم متخصص در یک زمینه واحد، بیشتر از سیستمهای هوش مصنوعی بهرهمند شوید. درست؟ این همان چیزی است که به آن "درس تلخ" میگویند.
من ممکن است مؤدبانه با آن مخالف باشم. اگر مایلید پاسخی داشته باشید که فقط 90٪ دقیق باشد، شاید. اما اگر بخواهم یک کوره بلند را کنترل کنم، باید 100٪ مواقع درست باشد. آن مدل بهتر است ایده ای از تجزیه و تحلیل سری زمانی داشته باشد.
این یک ماشین عمومی نیست که تصمیم گرفت به نوعی Moby Dick را حس کند تا پاسخ خود را ارائه دهد. بنابراین با احترام، نه. اگر واقعاً سعی میکنید به جاهایی برسید که به دقت بسیار بالاتری نیاز دارید، ممکن است با یک مدل کوچکتر عملکرد بسیار بهتری داشته باشید.
من در واقع معتقدم که چند مدل بسیار بزرگ وجود خواهد داشت. آموزش آنها چند میلیارد دلار هزینه خواهد داشت، یا شاید حتی بیشتر. و هزاران مدل کوچکتر وجود خواهد داشت که متناسب با هدف هستند. آنها از مدلهای بزرگ برای آموزش استفاده میکنند، اما نه واقعاً برای دانش ذاتی خود.
آیا مزایای اقتصادی اصلی حاصل از هوش مصنوعی به بزرگترین شرکتهایی میرسد که مدلهای بنیادی را آموزش میدهند؟ یا به شرکتهای کوچکتری که از آن مدلها برای موارد استفاده خاص استفاده میکنند؟
من فکر میکنم یک "و" دقیق است. من فکر میکنم قیاس هوش مصنوعی احتمالاً نزدیکترین قیاس به روزهای اولیه اینترنت است. بنابراین در اینترنت، از خود این سوال را بپرسید، آیا فقط برای شرکتهای بسیار بزرگ یا برای شرکتهای بسیار کوچک مفید است؟
دو مثال متضاد را در نظر بگیرید. اگر قرار است یک تجارت پخش ویدئو ایجاد کنم، هر چه محتوای بیشتری داشته باشید، میتوانید به افراد بیشتری خدمات ارائه دهید. شما یک اثر شبکهای به دست میآورید، یک صرفه جویی در مقیاس به دست میآورید. از طرف دیگر، شما یک مغازه مانند Etsy دارید. ناگهان فردی که صنعتگر است و در سال دو کالا تولید میکند، همچنان میتواند حضور داشته باشد زیرا هزینه توزیع بسیار پایین است.
پاسخ شما به این سوال چگونه بر جهتگیری کسب و کار شما تأثیر گذاشته است؟
ما عمیقاً در مورد آن فکر کردیم. در سال 2020، ما گفتیم: آیا باید تمام سرمایهگذاریهای خود را برای تلاش برای ساختن یک مدل بسیار بزرگ قرار دهیم؟ اگر یک مدل بسیار بزرگ باشد، هزینه اجرای این مدلها، بگذارید بگوییم، مربع اندازه مدل است.
بنابراین اگر من یک مدل 10 میلیارد پارامتری داشته باشم و یک مدل 1 تریلیون پارامتری داشته باشم، اجرای مدل بسیار بزرگ 10000 برابر گرانتر خواهد بود. سپس برمیگردید و این سوال را میپرسید که اگر فقط 1٪ بهتر باشد، آیا واقعاً میخواهم 10000 برابر بیشتر پرداخت کنم؟ و این پاسخ در دنیای تجارت تقریباً همیشه منفی است.
اما اگر بتواند 10 برابر کوچکتر باشد، هی، این ارزشش را دارد، زیرا بیش از 90٪ از هزینه اجرای آن را کاهش میدهد. این همان چیزی است که تصمیم ما را برانگیخت.
بیایید در مورد محاسبات کوانتومی صحبت کنیم. IBM سرمایهگذار بزرگی در کوانتوم است. استراتژی تصویر بزرگتر شما در آنجا چیست؟
بنابراین ما بیش از 10 سال پیش کوانتوم را به عنوان یک زمینه سرمایهگذاری انتخاب کردیم. ما به این نتیجه رسیدیم که این بیشتر یک مشکل مهندسی است تا یک مشکل علمی. لحظهای که یک مشکل مهندسی باشد، اکنون باید از خود این سوال را بپرسید که آیا میتوانید دو مسئله اساسی موجود را حل کنید؟
یکی، نرخ خطا واقعاً بالاست، اما نرخ رایانههای معمولی هم بالاست. چیزی که مردم نمیدانند این است که: تکنیکهایی وجود دارد که باعث میشود بدون خطا به نظر برسد. در سطح بسیار اساسی حتی در ماشینهایی که روی آنها هستیم، خطاهایی وجود دارد، اما خودشان را اصلاح میکنند و بنابراین ما آنها را نمیبینیم.
دو، از آنجایی که کوانتوم به دلیل ماهیت خود در سطح کوانتومی عمل میکند، مقادیر بسیار کمی از انرژی میتواند باعث چیزی به نام از دست دادن انسجام شود. بنابراین آنها برای مدت طولانی کار نمیکنند. ما معتقد بودیم اگر بتوانیم به یک میلی ثانیه نزدیک شویم، میتوانیم محاسبات بسیار بسیار دقیقی انجام دهیم.
بنابراین ما مسیری را طی کردیم و فکر میکنیم پیشرفت زیادی در اصلاح خطا داشتهایم. ما احتمالاً در یک دهم میلی ثانیه هستیم، هنوز کاملاً در یک میلی ثانیه نیستیم، در زمانهای انسجام. ما احساس میکنیم در طول سه، چهار، پنج سال آینده - من تا پایان دهه به خودم فرصت میدهم - شاهد اتفاقات قابل توجهی در این زمینه خواهیم بود و من واقعاً از جایی که تیم ما در آن قرار دارد خوشحالم.
اگر بتوانید به پیشرفت بزرگی که میگویید امیدوارید تا پایان دهه به آن برسید دست پیدا کنید، این IBM را به عنوان یک تجارت در کجا قرار میدهد؟ آیا این امر شما را در موقعیت غالب در موج بعدی فناوری قرار میدهد؟
سختافزار وجود دارد و سپس تمام افرادی وجود دارند که از آن بهرهبرداری خواهند کرد. بنابراین اجازه دهید ابتدا با این شروع کنم: افرادی که از آن بهرهبرداری خواهند کرد همه مشتریان ما خواهند بود. آنها ارزش را به دست خواهند آورد، چه کشف مواد باشد، چه باتریهای بهتر، چه کودهای بهتر یا داروهای بهتر، این ارزش توسط مشتریان ما جمع میشود.
اما چه کسی میتواند یک رایانه کوانتومی کارآمد به آنها بدهد؟ من فکر میکنم با فرض اینکه جدول زمانی و پیشرفتهایی که من در مورد آنها صحبت میکنم اتفاق بیفتد، فکر میکنم این به ما موقعیت فوقالعادهای و مزیت اولین حرکت در آن بازار میدهد، به طوری که فکر میکنم ما پاسخ بالفعل برای آن فناوریها خواهیم شد.
فناوری همیشه افزایشی بوده است. تلفن هوشمند لپتاپ را حذف نکرد. من فکر میکنم کوانتوم افزایشی خواهد بود. اما همانطور که ما به اختراع رایانههای بزرگ در رایانه شخصی کمک کردیم، شاید در کوانتوم همان موقعیت را برای مدتی اشغال کنیم.