Нейросеть «Яндекса» научилась генерировать короткие видео в «Шедевруме»

Команда разработчиков «Яндекса» сообщила о расширении возможностей мобильного приложения «Шедеврум» и реализации в программе функции создания коротких видеороликов с помощью генеративной нейросети. Утверждается, что компания стала первой на российском рынке, предложившей подобную технологию широкой аудитории.

Источник анимации: «Яндекс»

Для того, чтобы сгенерировать видео в «Шедевруме», достаточно описать текстом то, что хочется увидеть. В ответ приложение предложит четыре варианта первого кадра и набор анимационных эффектов для создания движения. Всего доступно семь эффектов: зум (приближение), таймлапс (ускоренная перемотка), полёт, панорама, вращение, подъём и морфинг (постепенное изменение). Для создания кадров будущего видео используется метод каскадной диффузии. С помощью этой технологии «Шедеврум» генерирует отдельные изображения. Сначала нейросеть создаёт картинки в соответствии с запросом, а затем поэтапно увеличивает их разрешение, насыщая деталями.

«Шедеврум» генерирует видео длиной четыре секунды с частотой 24 кадра в секунду. После публикации ими можно поделиться с друзьями или сохранить в формате MP4. В настоящий момент функция работает в режиме тестирования и доступна в обновлённой версии приложения активным пользователям «Шедеврума».

«Яндекс» представил «Шедеврум» для Android и iOS в апреле 2023 года. В основу программы положена нейронная сеть, содержащая 5 миллиардов параметров и обученная на 330 миллионах примеров изображений с текстовым описанием. В планах разработчика — обучение нейросети новым знаниям и её внедрение в другие сервисы и продукты компании.