ابزارهای هوش مصنوعی مانند Veo 3 گوگل و Runway اکنون می‌توانند ویدئوهای به طرز شگفت‌انگیزی واقع‌گرایانه ایجاد کنند. جوآنا استرن و جرارد کول از وال استریت ژورنال آن‌ها را در یک فیلم که تقریباً تماماً با هوش مصنوعی ساخته شده است، آزمایش کردند. فیلم را تماشا کنید و سپس ببینید چگونه آن را ساختند. عکس: تولید شده با هوش مصنوعی
ابزارهای هوش مصنوعی مانند Veo 3 گوگل و Runway اکنون می‌توانند ویدئوهای به طرز شگفت‌انگیزی واقع‌گرایانه ایجاد کنند. جوآنا استرن و جرارد کول از وال استریت ژورنال آن‌ها را در یک فیلم که تقریباً تماماً با هوش مصنوعی ساخته شده است، آزمایش کردند. فیلم را تماشا کنید و سپس ببینید چگونه آن را ساختند. عکس: تولید شده با هوش مصنوعی

فیلمی با هوش مصنوعی ساختیم. شما را شگفت‌زده و آشفته خواهد کرد.

ما سعی کردیم یک فیلم هوش مصنوعی را با Veo و Runway کارگردانی کنیم. این ابزارها جادویی هستند، اما فرایند آن جنون‌آمیز است.

به نمایش افتتاحیه «ربات من و من» خوش آمدید. لطفاً تلفن‌های خود را بی‌صدا کنید، پاپ‌کورن خود را آرام بجوید و به یاد داشته باشید: هر تصویری که قرار است ببینید، با هوش مصنوعی تولید شده است. بیشتر صداها نیز همین‌طور، به جز صدای من.

برخی از آن‌ها کاملاً عجیب و غریب هستند. باور نخواهید کرد که هیچ دوربین واقعی استفاده نشده است. به برخی از آن‌ها خواهید خندید، زیرا واضح است که واقعی نیستند. به شما قول می‌دهم، بین صحنه‌ها جراحی ترمیمی صورت انجام نداده‌ام.

اما کافیست از من بشنوید. امیدوارم تا الان فیلم بالا را به همراه نگاهی به پشت صحنه آن تماشا کرده باشید. فقط برگردید – ما درس‌هایی برای به اشتراک گذاشتن داریم.

بله، ما. برای ساخت این فیلم، من با جرارد کول، یک تهیه‌کننده واقعی انسان، همکاری کردم. ما بیش از یک دهه پیش در وال استریت ژورنال با هم آشنا شدیم، در حال آزمایش با دوربین‌های کلاهی و فرمت‌های جدید ویدئو مانند واقعیت مجازی. این روزها، او شیفته ابزارهای ویدئوی هوش مصنوعی شده است.

پس من او را به چالش کشیدم تا یک ویدئوی کاملاً هوش مصنوعی بسازد. چقدر می‌توانست سخت باشد؟

بسیار سخت.

پس از بیش از هزار کلیپ، روزها کار و مقدار نامعلومی از توان محاسباتی مراکز داده، ما یک فیلم سه دقیقه‌ای ساختیم – درباره زندگی من با نوع جدیدی از ربات‌های افزایش‌دهنده کارایی. حتی اگر به زوایای دوربین یا داستان‌نویسی اهمیت نمی‌دهید، ممکن است به آنچه این ماجرا درباره استفاده از هوش مصنوعی در هر شغلی می‌گوید، اهمیت دهید.

۱# شما می‌توانید هر چیزی بسازید.

همین چند سال پیش، کلیپی که با هوش مصنوعی از ویل اسمیت در حال خوردن اسپاگتی ساخته شده بود، به دلیل کیفیت وحشتناک خود وایرال شد. اکنون، این ابزارها می‌توانند صحنه‌هایی را تولید کنند که تقریباً بی‌عیب و نقص به نظر می‌رسند – حداقل در نگاه اول.

پس از آزمایش چندین گزینه، ما روی Veo گوگل و ابزاری از استارتاپ Runway AI به توافق رسیدیم. آن‌ها بهترین ترکیب کیفیت و کنترل را به ما دادند. Sora از OpenAI به هیچ وجه به خوبی آن‌ها نبود. در ۲۰ مه، گوگل Veo 3 را عرضه کرد که صدای تولید شده با هوش مصنوعی، شامل دیالوگ و جلوه‌های صوتی، را اضافه می‌کند. اکنون ویل اسمیت را ببینید!

بله، اگر بتوانید چیزی را تصور کنید، می‌توانید آن را تولید کنید. یک نوزاد پادکستر، یک تیم SWAT در حال هجوم به یک خانه بادی، یا یک کلان‌شهر مایایی آینده‌نگر. اما ما به دنبال جلوه‌های بصری خنده‌دار نبودیم – ما می‌خواستیم داستانی را تعریف کنیم، چیزی با شخصیت، طنز و معنی. این کار بسیار سخت‌تر از آب درآمد.

۲# همچنان باید کار کنید.

فکر می‌کنید می‌توانید یک فیلم‌نامه را پیست کنید و یک اثر موفق نتفلیکس از آن بیرون بیاید؟ شوخی بامزه‌ای است. هر نما از فیلم ما نتیجه تلاش‌های زیاد در نوشتن پرامپت و چندین بار تولید بود. و برای حفظ ثبات شخصیت‌ها و صحنه‌ها از صحنه‌ای به صحنه دیگر، جرارد یک خط تولید کامل را ابداع کرد.

نسخه کوتاه آن: ما از مولد تصویر هوش مصنوعی Midjourney برای تولید صحنه‌هایمان (یک محله حومه شهر، یک اتاق خبر) و طراحی ستاره رباتیک‌مان استفاده کردیم. سپس از عکس‌های من برای ایجاد «من» هوش مصنوعی استفاده کردیم. آن‌ها را در Runway یا Veo آپلود کردیم، جایی که پرامپت‌ها را نوشتیم. در اینجا یک نمونه کوتاه آمده است:

نمای زاویه پایین: جوآنا با سرعتی تند، با حفظ خطی مستقیم از سر تا پاشنه، شنا می‌رود. ربات بالا سر او ایستاده، نظارت و راهنمایی می‌کند.

این کلمات دقیق و خاص تفاوت بزرگی ایجاد کردند. به عنوان یک فیلم‌ساز، جرارد می‌توانست صحنه‌ها را جزء به جزء تجزیه کند، زوایای دوربین، سبک‌های نورپردازی و حرکت را مشخص کند. آن پایان نفس‌گیر؟ هر نما به دقت برای ایجاد تعلیق توصیف شده بود.

و باز هم، ما بیش از ۱۰۰۰ کلیپ نیاز داشتیم. برخی از آن‌ها فاجعه کامل بودند، با کابوس‌های آناتومیکی و شخصیت‌های جدید تصادفی. حتی در صحنه‌های «خوب»، چهره من در تقریباً هر نما متفاوت به نظر می‌رسد.

۳# به خلاقیت انسانی نیاز دارید.

امروزه اصطلاح رایجی برای محتوای تولید شده با هوش مصنوعی وجود دارد: «شلخته». و بله، فیلم ما کمی حال و هوای شلختگی دارد. برخی از نماها بیش از حد صاف هستند و بخش‌هایی undeniablely جعلی به نظر می‌رسند. اما اگر کارمان را درست انجام داده باشیم، امیدوارم همچنان به آنچه یک فیلم باید انجام دهد، دست یافته باشد. شاید شما را خندانده باشد، شاید شما را به فکر فرو برده باشد.

و ما این کار را بدون بودجه عظیم، دپارتمان‌های لوازم صحنه و تیم‌های جلوه‌های ویژه انجام دادیم. هزینه کل آن چند هزار دلار برای ابزارهای ویدئوی هوش مصنوعی گوگل و Runway بود. (ما بخشی از آن را پرداخت کردیم و شرکت‌ها دسترسی ویژه‌ای به بقیه را به ما دادند.)

به عنوان دو تهیه‌کننده ویدئویی با تجربه، می‌توانیم بگوییم که هوش مصنوعی راه‌های جدیدی برای خلق چیزهایی که قبلاً نمی‌توانستیم، باز می‌کند. اما نمی‌تواند صنعت‌گری را جایگزین کند.

این ابزارها بدون ورودی انسانی، خلاقیت و ایده‌های اصیل هیچ ارزشی ندارند. همان‌طور که فیلم امیدوارم به شما یادآوری کرده باشد، ما ربات نیستیم. کمی زندگی کنید.

برای جوآنا استرن به آدرس [email protected] بنویسید.