هوش مصنوعی جدید گوگل می تواند یک ویدیوی کوتاه فقط از یک عکس بسازد

با توسعه فناوری های مختلف، محققان همچنان به دنبال راه حل های جدید برای بهره برداری از قابلیت های مختلف هوش مصنوعی و یادگیری ماشین هستند. در اوایل این هفته، دانشمندان گوگل از ایجاد چارچوب جدیدی به نام Transframer خبر دادند که می تواند ویدیوهای کوتاهی را بر اساس تصاویر ورودی (حتی عکس) ایجاد کند. این فناوری جدید ممکن است روزی مکمل راه حل های رندر سنتی باشد و به توسعه دهندگان اجازه دهد تا محیط های مجازی را بر اساس قابلیت های یادگیری ماشین ایجاد کنند.

به گزارش TechSpot، نام پلتفرم جدید گوگل یعنی Transframer و به نوعی مفهوم آن به مدلی مبتنی بر هوش مصنوعی به نام Transformer اشاره دارد که اولین بار در سال 2017 معرفی شد و در واقع یک معماری جدید شبکه عصبی با قابلیت ایجاد متن توسط مدل سازی و مقایسه کلمات دیگر در یک جمله این مدل از آن زمان در چارچوب های یادگیری عمیق استاندارد مانند TensorFlow و PyTouch گنجانده شده است.

همانطور که Transformer از زبان برای پیش‌بینی نتایج بالقوه استفاده می‌کند، پلتفرم Transframer از تصاویر پس‌زمینه با ویژگی‌های مشابه همراه با حاشیه‌نویسی پرس و جو برای ایجاد ویدیوهای کوتاه استفاده می‌کند. کلیپ های ایجاد شده با این فناوری در اطراف تصویر حرکت می کنند و اگرچه داده های هندسی در تصویر اصلی گنجانده نشده است، اما پرسپکتیو را بسیار دقیق منعکس می کند. در مرحله بعد، به توییت DeepMind گوگل در مورد این پلتفرم نگاه می کنیم:

Transframer یک فریمورک مولد همه کاره است که می تواند بسیاری از کارهای بصری و ویدیویی را در یک محیط مجازی انجام دهد. نشان داده شده است که این فناوری در پیش بینی ویدیو و ترکیب تصویر بسیار خوب عمل می کند و می تواند تنها از یک عکس کلیپ های 30 ساله ایجاد کند.

هوش مصنوعی Google Transframer

مقاله مرتبط:

Transframer که از پلتفرم هوش مصنوعی DeepMind گوگل استفاده می کند، با تجزیه و تحلیل تصویر پس زمینه، اجزای اصلی تصاویر مورد نیاز برای ایجاد فیلم ها و عکس های اضافی را استخراج می کند. در فرآیند تحلیل، این سیستم سعی می کند یک فریم از تصویر را شناسایی کرده و از آن برای پیش بینی محیط استفاده کند. در مرحله بعد، از تصاویر پس زمینه برای پیش بینی بیشتر نحوه نمایش عکس از زوایای مختلف استفاده می شود.

این سیستم فریم های اضافی تصویر را بر اساس داده ها و حاشیه نویسی ها و هر اطلاعات دیگری که از فریم های زمینه موجود است مدل می کند. چارچوب جدید گوگل نشان دهنده یک گام مهم رو به جلو در فناوری ویدئو است که امکان ایجاد ویدئوهای دقیق و هوشمند بر اساس مجموعه داده های بسیار محدود را فراهم می کند. Transframer همچنین نتایج بسیار امیدوارکننده‌ای را در معیارهای مرتبط با ویدئو مانند تقسیم‌بندی و طبقه‌بندی تصویر معنایی و پیش‌بینی جریان نوری نشان داده است.

پیامدهای Transframer برای صنایع ویدیویی مانند توسعه بازی می تواند بسیار زیاد باشد. محیط‌های توسعه بازی مدرن بر تکنیک‌های رندر اولیه مانند سایه‌زنی، رندر عمق، عمق میدان و ردیابی پرتو تکیه دارند. فناوری‌هایی مانند Transframer این توانایی را دارند که از هوش مصنوعی و یادگیری ماشین برای ایجاد محیط‌هایی که سازندگان بازی می‌خواهند به روشی کاملاً جدید استفاده کنند و در زمان، منابع و تلاش مورد نیاز برای ایجاد آن محیط‌ها صرفه‌جویی کنند.

دیدگاهتان را بنویسید

دیدگاهتان را بنویسید لغو پاسخ