Сегодня 06 октября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → генерация
Быстрый переход

«Яндекс» создал ИИ-помощника для генерации программного кода

Компания «Яндекс» подала в Роспатент заявку на регистрацию товарного знака Yandex Code Assistant, в числе регистрируемых классов и услуг — программное обеспечение и средства совместной работы над программным кодом. В «Яндексе» подтвердили разработку сервиса для генерации кода на базе искусственного интеллекта, добавив, что он будет доступен «бесплатно в режиме тестирования» на облачной платформе Yandex Cloud.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

«Яндекс» и «Сбер», у которых есть собственные большие языковые модели (LLM), больше года работают над созданием инструментов автоматического дополнения программного кода. Разработка таких продуктов началась вскоре после появления сервиса GitHub Copilot, который в 2021 году создала Microsoft на основе технологий компании OpenAI. Этот сервис недоступен в России, а взаимодействие с ним осуществляется в рамках платной подписки.

Осенью прошлого года «Сбер» запустил сервис GigaCode, а летом этого года собственную интегрированную среду разработки GigaIDE. По данным источника, за несколько месяцев с момента запуска ИИ-помощника GigaCode его установили более 20 тыс. пользователей.

Что касается Yandex Code Assistant, то он будет совместим с популярными редакторами программного кода, сообщил директор по продукту Yandex Cloud Григорий Атрепьев. Он также добавил, что этот и другие инструменты станут частью «платформы для создания, развёртывания и сопровождения цифровых продуктов».

В компании не уточнили, планируется ли создание собственной интегрированной среды разработки, а также, какие именно сервисы станут частью платформы. По данным источника, «Яндекс», помимо Code Assistant, работает над созданием инструментов Code Review для проверки и анализа кода, а также Auto Documentation для автоматической аннотации кода.

MiniMax представила бесплатный ИИ-генератор video-1, который превращает текст в видео за 2 минуты

Китайский стартап MiniMax, работающий в сфере искусственного интеллекта, представил алгоритм video-1, который генерирует небольшие видеоклипы на основе текстовых подсказок. Генератор video-1 был представлен широкой публике на прошедшей несколько дней назад в Шанхае первой конференции разработчиков компании, а позднее стал доступен всем желающим на веб-сайте MiniMax.

 Источник изображения: scmp.com

Источник изображения: scmp.com

С помощью video-1 пользователь может на основе текстового описания создавать видеоролики продолжительностью до 6 секунд. Процесс создания такого ролика занимает около 2 минут. Основатель MiniMax Ян Цзюньцзе (Yan Junjie) рассказал на презентации, что video-1 является первой версией алгоритма генерации видео по текстовым подсказкам, отметив, что в будущем нейросеть сможет создавать ролики на основе статических изображений, а также позволит редактировать уже созданные клипы.

Появление video-1 отражает стремление китайских технологических компаний продвинуться в зарождающемся сегменте рынка ИИ. Генератор видео был представлен всего через несколько месяцев после анонса нейросети Sora компании OpenAI, которая также позволяет создавать видео по текстовым подсказкам. Что касается MiniMax, то компания была основана в декабре 2021 года и с тех пор она проделала немалую работу. Новый инструмент video-1 предлагается в рамках платформы MiniMax под названием Hailuo AI, которая ориентирована на потребительский рынок и уже предоставляет доступ к функциям генерации текстов и музыки с помощью нейросетей.

Помимо MiniMax, разработкой ИИ-алгоритмов для генерации видео из текста занимаются и другие китайские компании. Пекинский стартап Shengshu AI в июле запустил собственный генератор видео из текста на китайском или английском языках под названием Vidu. Стартап Zhipu AI стоимостью более $1 млрд в том же месяце представил свой аналог Sora, который может создавать небольшие видео на основе текстовых подсказок или статических изображений.

Владелец TikTok и Douyin, компания ByteDance, в прошлом месяце опубликовала в китайском App Store приложение Jimeng text-to-video для генерации видео из текста, а ещё ранее оно появилось в местных магазинах Android-приложений. Jimeng позволяет создать бесплатно 80 изображений или 26 видео, а для более активного взаимодействия с нейросетью предлагается оформить подписку за 69 юаней (около $10). В прошлом месяце компания Alibaba Group Holding объявила о разработке алгоритма для генерации видео под названием Tora, основанного на модели OpenSora.

Отметим, что среди инвесторов MiniMax есть крупные IT-компании, такие как Alibaba, Tencent Holdings и miHoYo (создатель Genshin Impact). Очередной раунд финансирования прошёл весной и после его завершения рыночная стоимость MiniMax оценивалась более чем в $2 млрд.

AMD представила Amuse 2.0 — ПО для ИИ-генерации изображений для Ryzen и Radeon

AMD представила Amuse 2.0 — программный инструмент для ИИ-генерации изображений. Программа доступна в бета-версии. В перспективе её функциональность будет расширяться. Amuse 2.0 является своего рода аналогом инструмента AI Playground от Intel, использующего мощности видеокарт Intel Arc. Решение от AMD для генерации контента в свою очередь полагается на мощности процессоров Ryzen и видеокарт Radeon.

 Источник изображений: AMD

Источник изображений: AMD

Приложение Amuse 2.0, разработанное с помощью TensorStack, отличается простотой использования, без необходимости загружать множество внешних компонентов, задействовать командные строки или запускать что-либо ещё. Для использования приложения достаточно лишь запустить исполняемый файл.

По сравнению с Intel AI Playground, Amuse 2.0 не поддерживает запуск чат-ботов на основе больших языковых моделей. В настоящее время приложение предназначено только для генерации изображений с помощью ИИ. Amuse 2.0 использует модели Stable Diffusion и поддерживает процессоры Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и серию видеокарт Radeon RX 7000. Почему компания не добавила поддержку видеокарт Radeon RX 6000 и более ранних моделей, а также процессоров Ryzen 7040 (Phoenix), обладающих практически идентичными характеристиками с Hawk Point, неизвестно. Возможно, это изменится в будущем.

Для работы Amuse 2.0 AMD рекомендует использовать 24 Гбайт ОЗУ или больше для систем на базе процессоров Ryzen AI 300 и 32 Гбайт оперативной памяти для систем на базе Ryzen 8040. Для видеокарт Radeon RX 7000 требования к необходимому объёму памяти не указаны.

Возможности Amuse 2.0:

  • не требуется командная строка;
  • простота и удобство использования;
  • поддержка AMD XDNA Super Resolution;
  • один исполняемый файл;
  • никаких настроек;
  • автоматическая настройка и выбор модели;
  • преобразование рисунка в изображение;
  • создание собственных ИИ фильтров;
  • многоступенчатый конвейер на основе ONNX (Stable Diffusion, Control Nets, Feature Extractors).

Стоит отметить, что инструмент поддерживает XDNA Super Resolution — технологию, позволяющую увеличивать масштаб изображений вдвое. Более подробно об Amuse 2.0 можно узнать по этой ссылке.

Stability AI представила генератор 4D-видео Stable Video 4D

На фоне популярности генеративных нейросетей уже доступно множество ИИ-алгоритмов для создания видео, таких как Sora, Haiper и Luma AI. Разработчики из Stability AI представили нечто совершенно новое. Речь идёт о нейросети Stable Video 4D, которая опирается на существующую модель Stable Video Diffusion, позволяющую преобразовывать изображения в видео. Новый инструмент развивает эту концепцию, создавая из получаемых видеоданных несколько роликов с 8 разными перспективами.

 Stable Diffusion 3

Stable Diffusion 3

«Мы считаем, что Stable Video 4D будет использоваться в кинопроизводстве, играх, AR/VR и других сферах, где присутствует необходимость просмотра динамически движущихся 3D-объектов с произвольных ракурсов», — считает глава подразделения по 3D-исследованиям в Stability AI Варун Джампани (Varun Jampani).

Это не первый случай, когда Stability AI выходит за пределы генерации двумерного видео. В марте компания анонсировала алгоритм Stable Video 3D, с помощью которого пользователи могут создавать короткие 3D-ролики на основе изображения или текстового описания. С запуском Stable Video 4D компания делает значительный шаг вперёд. Если понятие 3D или три измерения обычно понимается как тип изображения или видео с глубиной, то 4D, не добавляет ещё одно измерение. На самом деле 4D включает в себя ширину (x), высоту (y), глубину (z) и время (t). Это означает, что Stable Video 4D позволяет смотреть на движущиеся 3D-объекты с разных точек обзора и в разные моменты времени.

«Ключевые аспекты, которые позволили создать Stable Video 4D, заключаются в том, что мы объединили сильные стороны наших ранее выпущенных моделей Stable Video Diffusion и Stable Video 3D, а также доработали их с помощью тщательно подобранного набора данных динамически движущихся 3D-объектов», — пояснил Джампани. Он также добавил, что Stable Video 4D является первым в своём роде алгоритмом, в котором одна нейросеть выполняет синтез изображения и генерацию видео. В уже существующих аналогах для решения этих задач используются отдельные нейросети.

«Stable Video 4D полностью синтезирует восемь новых видео с нуля, используя для этого входное видео в качестве руководства. Нет никакой явной передачи информации о пикселях с входа на выход, вся эта передача информации осуществляется нейросетью неявно», — добавил Джампани. Он добавил, что на данный момент Stable Video 4D может обрабатывать видео с одним объектом длительностью несколько секунд с простым фоном. В дальнейшем разработчики планируют улучшить алгоритм, чтобы он мог использоваться для обработки более сложных видео.

В WhatsApp появился ИИ-генератор персонализированных аватаров, но доступен он пока не всем

Пользователи мессенджера WhatsApp в скором времени смогут воспользоваться новой ИИ-функцией, которая позволит генерировать персонализированные аватары. На данном этапе такая возможность стала доступна некоторым пользователям бета-версии WhatsApp 2.24.14.7.

 Источник изображения: Dima Solomin / unsplash.com

Источник изображения: Dima Solomin / unsplash.com

В сообщении сказано, что пользователи смогут делать аватары на основе собственных изображений и текстовых описаний. В опубликованном на этой неделе скриншоте есть краткое описание новой функции. В нём говорится, что пользователи могут представить себя «в любой обстановке — от леса до космоса». Опубликованные примеры сгенерированных аватаров выглядят достаточно типично для изображений, созданных ИИ-алгоритмом.

Чтобы создать персонализированный аватар, пользователю потребуется «один раз сфотографировать себя». Этот снимок будет задействован для обучения ИИ-алгоритма созданию изображений, похожих на пользователя. После этого пользователю будет достаточно указать детали изображения, которое он хочет получить, в чате Meta AI или в другом чате, задействовав команду «@Meta AI представь меня…».

 Источник изображения: WABetaInfo

Источник изображения: WABetaInfo

Согласно имеющимся данным, новая функция по умолчанию будет отключена. Для начала генерации персонализированных аватаров потребуется активировать соответствующую опцию в настройках приложения. Эталонные снимки, на основе которых создаются аватары, в любой момент можно удалить. Когда упомянутое нововведение станет общедоступным, пока неизвестно.

Meta✴ выпустила ИИ-генератор 3D-моделей по текстовому описанию

Исследовательское подразделение компании Meta Platforms представило новый генеративный алгоритм 3D Gen, который позволяет создавать качественные 3D-объекты по текстовому описанию. По словам разработчиков, новая нейросеть превосходит аналоги по качеству создаваемых моделей и по скорости генерации.

 Источник изображений: 3D gen

Источник изображений: 3D gen

«Эта система может генерировать 3D-объекты с текстурами высокого разрешения», — говорится в сообщении Meta в соцсети Threads. Там также отмечается, что нейросеть значительно превосходит аналогичные алгоритмы по качеству генерируемых объектов и в 3-10 раз опережает по скорости генерации.

Согласно имеющимся данным, Meta 3D Gen может создавать 3D-объекты и текстуры на основе простого текстового описания менее чем за минуту. Функционально новый алгоритм похож на некоторые уже существующие аналоги, такие как Midjourney и Adobe Firefly. Одно из отличий в том, что 3D Gen создаёт модели, которые поддерживают физически корректный рендеринг. Это означает, что создаваемые нейросетью модели могут использоваться в приложениях для моделирования и рендеринга реально существующих объектов.

«Meta 3D Gen — это двухступенчатый метод, сочетающий в себе два компонента: один для преобразования текста в 3D, а другой — для преобразования текста в текстуры», — говорится в описании алгоритма. По словам разработчиков, такой подход позволяет добиться «более высокого качества 3D-генерации для создания иммерсивного контента».

3D Gen объединяет две основополагающие языковые модели Meta AssetGen и TextureGen. В Meta заявляют, что, основываясь на отзывах профессиональных 3D-художников, новая технология компании предпочтительнее конкурирующих аналогов, которые также позволяют генерировать 3D-объекты по текстовому описанию.

Adobe поменяет пользовательское соглашение на фоне скандала с доступом к контенту

Ранее Adobe обновила соглашение, регулирующее правила взаимодействия пользователей с программными продуктами компании. Несколько расплывчатых формулировок указывали на то, что теперь Adobe официально может просматривать контент, который пользователи создали с помощью приложений компании и хранят в облаке. Это вызвало негативную реакцию сообщества, на фоне чего Adobe пришлось объясниться и пообещать внести в соглашение более понятные формулировки.

 Источник изображения: adobe.com

Источник изображения: adobe.com

«Ваш контент принадлежит вам и никогда не будет использоваться для обучения каких-либо инструментов генеративного искусственного интеллекта», — говорится в совместном заявлении директора по продуктам Adobe Скотта Бельски (Scott Belsky) и вице-президента по правовым вопросам Даны Рао (Dana Rao).

Пользователи разных приложений компании, таких как Photoshop, Premiere Pro и Lightroom, были возмущены расплывчатыми формулировками. Люди посчитали внесённые в пользовательское соглашение изменения желанием Adobe использовать созданный пользователями контент для обучения генеративных нейросетей. Другими словами, создатели контента подумали, что Adobe намерена использовать ИИ для кражи их работ с целью последующей перепродажи.

На этом фоне Adobe активно пытается убедить сообщество в том, что пользовательскому контенту ничего не угрожает, а внесённые в соглашение изменения ошибочно оказались недостаточно точными. «В мире, где клиенты беспокоятся о том, как используются их данные и как обучаются генеративные модели искусственного интеллекта, на компаниях, хранящих данные и контент своих клиентов, лежит обязанность заявить о своей политике не только публично, но и в своём пользовательском соглашении», — говорится в сообщении Бельски.

Компания пообещала пересмотреть пользовательское соглашение, чтобы сделать его более понятным за счёт «более простого языка и примеров». В Adobe надеются, что такой подход поможет пользователям лучше понимать, о чём именно говорится в тех или иных пунктах соглашения. Компания уже отредактировала первоначальный текст изменений 6 июня, но это не повлияло на негативную реакцию сообщества. Компания утверждает, что клиенты могут защитить свой контент не только от нейросетей, им также доступен вариант отказа от участия в программе улучшения продуктов компании.

«Сбер» открыла для всех ИИ-генератор 6-секундных видео Kandinsky Video 1.1

«Сбер» официально объявил о запуске бета-версии нейросети Kandinsky Video 1.1, которая способна создавать полноценные видео продолжительностью 6 секунд на основе текстового описания или статического изображения. Оценить возможности алгоритма можно на платформе fusionbrain.ai и в Telegram-боте Kandinsky.

 Источник изображения: fusionbrain.ai

Источник изображения: fusionbrain.ai

Нейросеть генерирует непрерывную сцену с движением объектов и фона продолжительностью до шести секунд на скорости 8 кадров в секунду или 32 кадра в секунду. Поддерживается генерация роликов в форматах 16:9, 9:16 и 1:1. Обновлённый алгоритм способен создавать ролики не только по текстовому описанию, но и на основе статического изображения. За счёт этого пользователи имеют больше возможностей для реализации своих творческих задумок. В дополнение к этому пользователь может контролировать динамику генерируемого видео путём изменения параметра «motion score».

«Сегодня мы сделали ещё один шаг в будущее видеотворчества. Теперь каждый пользователь Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. С момента запуска первой версии нейросети прошло менее года, и за это время наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива», — прокомментировал запуск нового алгоритма Андрей Белевцев, старший вице-президент, руководитель блока «Техническое развитие» Сбербанка.

Google представила ИИ Veo для создания реалистичных видео — Full HD и больше минуты

Около трёх месяцев прошло с тех пор как OpenAI представила генеративную нейросеть Sora, которая может создавать реалистичное видео по текстовому описанию. Теперь у Google есть чем ответить: в рамках конференции Google I/O была анонсирована нейросеть Veo. Алгоритм может генерировать «высококачественные» видеоролики с разрешением Full HD продолжительностью более минуты с применением разных визуальных и кинематографических стилей.

 Источник изображения: Google

Источник изображения: Google

В пресс-релизе Google сказано, что алгоритм Veo обладает «продвинутым пониманием естественного языка», что позволяет ИИ-модели понимать кинематографические термины, такие как «таймлапс» или «съёмка пейзажа с воздуха». Пользователи могут добиться желаемого результата с помощью не только текстовых подсказок, но также «скормить» ИИ изображения или видео, получая в конечном счёте «последовательные и целостные» ролики, в которых на протяжении всего времени движения людей, животных и объектов выглядят реалистично.

Генеральный директор ИИ-подразделения Google DeppMind Демис Хассабис (Demis Hassabis) заявил, что пользователи могут корректировать генерируемые ролики с помощью дополнительных подсказок. Кроме того, Google изучает возможность интеграции дополнительных функций, которые позволят Veo создавать раскадровки и более продолжительные видео.

Несмотря на сегодняшний анонс Veo, обычным пользователям придётся какое-то время подождать, прежде чем алгоритм станет общедоступным. На данном этапе Google приглашает к тестированию предварительной версии нейросети ограниченно количество создателей контента. Компания хочет поэкспериментировать с Veo, чтобы определить, каким образом следует осуществлять поддержку авторов контента и развивать сотрудничество с ними, давая творческим людям право голоса в разработке ИИ-технологий Google. Некоторые функций Veo в ближайшие несколько недель станут доступны ограниченному числу пользователей сервиса VideoFX, которые подадут заявки на участие в тестировании предварительной версии алгоритма. В будущем Google намерена также добавить некоторые функции Veo в YouTube Shorts.

Google анонсировала свой самый мощный ИИ-генератор изображений Imagen 3

В рамках проходящей в эти дни в Маунтин-Вью конференции Google I/O состоялся анонс новой версии генеративной нейросети семейства Imagen. Речь идёт об алгоритме Imagen 3 — самом продвинутом генераторе изображений от Google на данный момент.

 Источник изображения: Google

Источник изображения: Google

Глава исследовательского ИИ-подразделения Google Deep Mind Демис Хассабис (Demis Hassabis) во время презентации заявил, что Imagen 3 более точно понимает тестовые запросы, на основе которых он создаёт изображения, чем модель Imagen 2. Он отметил, что алгоритм работает более «креативно и детализировано», а также реже ошибается и создаёт меньше «отвлекающих артефактов».

Вместе с этим Google попыталась развеять опасения по поводу того, что Imagen 3 будет использоваться для создания дипфейков. В процессе генерации изображений будет задействована технология SynthID, посредством которой на медиафайлы наносятся невидимые криптографические водяные знаки. Предполагается, что такой подход сделает бесполезными попытки использовать ИИ-генератор Google для создания фейкового контента.

Частные пользователи могут оформить подписку на Imagen 3 через сервис Google ImageFX. Разработчики и корпоративные клиенты получат доступ к ИИ-генератору через платформу машинного обучения Vertex AI. Как и в прошлом, в этот раз Google не поделилась подробностями касательно того, какие данные использовались для обучения нового алгоритма.

Microsoft показала нейросеть, которая делает говорящие что угодно дипфейки по одному фото

За последние пару лет генеративные нейросети преодолели важный этап развития, став более мощными и способными создавать по текстовому описанию не только изображения, но и видео. Новый алгоритм VASA-1 от Microsoft, вероятно, сумеет удивить многих, поскольку для его работы вообще не нужно описание. Достаточно предоставить одно изображение человека и аудиодорожку, на основе которых нейросеть сгенерирует видео говорящего человека с широким спектром эмоций и естественной мимикой.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Результат работы VASA-1 выглядит очень естественно и правдоподобно. Всего из одного снимка лица и записи голоса алгоритм создаёт реалистичное видео, на котором запечатлённый на снимке человек буквально «оживает», а его мимика, движения губ и головы выглядят вполне натурально. Поскольку созданные с помощью VASA-1 видео с ходу сложно отличить от реальных, уже высказываются опасения по поводу того, что алгоритм может использоваться злоумышленниками для создания фейков.

Что касается самой нейросети, то главным её отличием от других подобных алгоритмов является наличие целостной модели генерации лицевой мимики и движений головы. Специалисты Microsoft провели обширную исследовательскую работу, включая оценку ряда новых метрик. В результате они установили, что новый алгоритм значительно превосходит представленные ранее аналоги по многим параметрам.

«Наш метод не только обеспечивает генерацию видео высокого качества с реалистичной мимикой лица и движениями головы, но также поддерживает функцию онлайн-генерации видео 512×512 точек с частотой 40 кадров в секунду с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора», — говорится в сообщении Microsoft.

Другими словами, нейросеть может создавать качественные фейковые видео на основе всего одного изображения. Поэтому не удивительно, что Microsoft называет VASA-1 «исследовательской демонстрацией» и не планирует выводить его на коммерческий рынок, по крайней мере, в ближайшее время.

Представлена нейросеть Stable Audio 2.0 для генерации полноценных трёхминутных музыкальных треков с вокалом

Модель ИИ для генерации аудио Stable Audio 2.0 от Stability AI позволяет пользователям загружать свои собственные аудиозаписи, на основе которых ИИ генерирует трёхминутные треки в соответствии с подсказками. По утверждению Stability AI, главное отличие новой версии Stable Audio состоит в создании песен с классической музыкальной структурой: вступлением, развитием и финалом. Тем не менее, эксперты уверены, что на «Грэмми» этим трекам пока рассчитывать не приходится.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Первая версия Stable Audio была выпущена в сентябре 2023 года и предлагала платным пользователям генерацию треков длительностью до 90 секунд, пригодных только для экспериментов. Stable Audio 2.0 генерирует полноценный трёхминутный аудиофайл, что соответствует продолжительности песен для радиовещания. Новая версия Stable Audio полностью бесплатна и доступна как на официальном сайте, так и через API.

Stability AI сообщила, что модель обучалась на данных музыкальной библиотеки AudioSparx из более чем 800 000 композиций, причём артистам была предоставлена возможность запретить использование своего материала для обучения модели. Stable Audio 2.0 позволяет пользователям настраивать проект в широком диапазоне, регулируя степень влияния подсказки и то, какую часть загруженного аудио она будет изменять. Доступно добавление звуковых эффектов.

Исследователи, успевшие поэкспериментировать со Stable Audio 2.0, довольно сдержаны в своих оценках. По мнению одного из них, добавленный генератором вокал похож на звуки, издаваемые китами, другому показалось, что он «случайно вызвал в свой дом потустороннее существо». Эксперты назвали сгенерированные треки «бездушными и странными».

Все загруженные пользователем аудиозаписи не должны нарушать авторских прав. Проблемы с последними стали одной из причин, по которой бывший вице-президент Stability AI Эд Ньютон-Рекс (Ed Newton-Rex) покинул компанию вскоре после запуска Stable Audio. Теперь Stability AI заключила партнёрское соглашение с Audible Magic, чтобы использовать технологию распознавания контента, разработанную компанией, для отслеживания и блокировки попадания на платформу материалов, защищённых авторским правом.

OpenAI сделает ИИ-генератор видео Sora общедоступным позднее в этом году

В феврале OpenAI впервые продемонстрировала нейросеть Sora, способную генерировать реалистичные видео из текстовых описаний. Пока этот инструмент доступен лишь для художников, дизайнеров и кинематографистов. Сегодня технический директор OpenAI Мира Мурати (Mira Murati) сообщила, что Sora станет доступна широкой публике «позднее в этом году». Мурати пообещала, что к способности Sora создавать видео добавится генерация звукового сопровождения, что сделает ролики ещё более реалистичными.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Сейчас OpenAI работает над возможностью редактирования контента в видеороликах Sora, поскольку инструменты искусственного интеллекта не всегда создают точные изображения. «Мы пытаемся выяснить, как использовать эту технологию в качестве инструмента, с помощью которого люди смогут редактировать медиаконтент», — рассказала Мурати.

Мурати уклонилась от ответа на вопрос, какие данные OpenAI использовала для обучения Sora. «Я не собираюсь вдаваться в подробности использованных данных, но это были общедоступные или лицензированные данные», — заявила она. Мурати не подтвердила и не опровергла использование видео с YouTube, Facebook и Instagram. Она отметила, что Sora использует контент фотохостинга Shutterstock, с которым у OpenAI заключено партнёрское соглашение.

Мурати рассказала, что на сегодняшний день Sora отличается от других моделей ИИ повышенными требованиями к вычислительным ресурсам. OpenAI работает над тем, чтобы сделать этот инструмент «доступным по той же цене», что и модель DALL-Eдля преобразования текста в изображение.

Опасения в обществе по поводу инструментов генеративного ИИ и их способности создавать дезинформацию усиливаются. По словам Мурати, Sora не сможет создавать изображения общественных деятелей, как и DALL-E. Видео от Sora также будут включать водяные знаки, но они не являются идеальной защитой и могут быть удалены из видео при помощи ИИ или традиционных технологий.

Люди не смогли отличить созданные нейросетью OpenAI Sora видео от настоящих

Несколько недель назад компания Open AI представила нейросеть Sora, способную по текстовому описанию генерировать реалистичное видео продолжительностью до одной минуты с разрешением 1920 × 1080 пикселей. Теперь же компания HarrisX провела опрос, предлагая взрослым американцам отличить сгенерированное ИИ видео от настоящего. Оказалось, что большая часть респондентов ошиблась в 5 из 8 предлагаемых в рамках опроса роликов.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

В опросе, который проходил в период с 1 по 4 марта в США, участвовали более 1000 американцев. Авторы исследования сгенерировали четыре высококачественных ролика с помощью нейросети Sora, а также выбрали четыре небольших видео, которые были сняты на камеру в реальном мире. Респондентам в случайном порядке показывали эти видео, а их цель была определить, снят ролик человеком или его сгенерировал ИИ. Мнения участников опроса разделились, но при этом в 5 из 8 случаев большая часть респондентов дала неверный ответ.

Это исследование указывает на то, что создаваемый с помощью генеративных нейросетей контент становится всё более реалистичным и отличить его от реального всё труднее. Именно поэтому в разных странах стали чаще звучать призывы к властям о необходимости законодательного регулирования этого сегмента. В числе прочего предлагается обязать пользователей нейросетей помечать генерируемый контент соответствующим образом, чтобы он не вводил других в заблуждение и не мог стать источником дезинформации.

 Источник изображения: variety.com

Источник изображения: variety.com

Алгоритм Sora ещё недоступен широкой публике, но уже сейчас он вызывает серьёзную тревогу в обществе, особенно в индустрии развлечений, где развитие технологий генерации видео влечёт массу негативных последствий, например, для киностудий. Более того, всё чаще поднимается вопрос о том, что подобные Sora алгоритмы могут использоваться для создания фейковых видео с участием политиков и знаменитостей, что может привести к самым непредсказуемым последствиям.

Intel XeSS скоро научится генерировать кадры, но будет делать иначе, чем AMD и NVIDIA

Компания Intel намерена сделать значительный шаг вперед в сфере компьютерных игр, представив в ближайшее время свою технологию генерации кадров для XeSS. Новая разработка, получившая название ExtraSS, будет представлена на выставке SIGGRAPH Asia 2023 в Сиднее и ознаменует собой вступление Intel в конкурентную борьбу с DLSS 3 от NVIDIA и FSR 3 от AMD, которые уже умеют генерировать дополнительные кадры.

Технология масштабирования разрешения Intel XeSS примечательна тем, что работает на любом аппаратном обеспечении, то есть графике не только от Intel, но также от AMD и NVIDIA. Отличительной особенностью XeSS является не только ее совместимость, но и открытый исходный код. Эта особенность позволяет легко интегрировать XeSS в игры, создавая экосистему, в которой XeSS может сосуществовать с другими методами апскейлинга, такими как FSR и DLSS.

Однако в области генерации кадров Intel пока отстаёт. И NVIDIA, и AMD расширили технологические возможности своих DLSS и FSR в этом году, добавив поддержку генерации кадров — метода, который вставляет кадры в поток с помощью технологии интерполяции, то есть на основе данных с предыдущих настоящих кадров. Это стратегическое дополнение направлено на повышение FPS при сохранении оптимального качества изображения

ExtraSS станет расширением для XeSS. В презентации под названием «ExtraSS: фреймворк для совместного пространственного суперсэмплинга и экстраполяции кадров» вице-президент Intel по исследованиям в области графики Антон Капланян (Anton Kaplanyan) и другие авторы предлагают экстраполяцию кадров как ключ к повышению производительности рендеринга в реальном времени.

В области генерации кадров Intel XeSS ExtraSS применяет особый подход, используя «экстраполяцию кадров», а не более распространенную «интерполяцию кадров». Хотя оба метода служат для генерации и вставки кадров в сцену для повышения FPS, ключевое различие заключается в том, как создаются кадры. Фреймворк ExtraSS сочетает пространственный суперсэмплинг и экстраполяцию кадров, достигая тонкого баланса между производительностью и качеством.

Кадровая интерполяция использует несколько образцов для приближения вставляемого кадра, а кадровая экстраполяция использует информацию, выходящую за пределы входного образца, для создания приближения. Следует признать, что экстраполяция может давать меньше артефактов, но может быть менее надежной. Тем не менее, с помощью настроек и оптимизаций XeSS ExtraSS стремится найти баланс, предлагая хорошее качество при более высоком FPS.

«Используя легкие модули искривления и ExtraSSNet для доработки, мы используем пространственно-временную информацию, улучшаем резкость рендеринга, точно обрабатываем движущиеся тени и генерируем временно-стабильные результаты. Вычислительные затраты значительно снижаются по сравнению с традиционными методами рендеринга, что позволяет повысить частоту кадров и получить результаты высокого разрешения без искажений», — пишут исследователи Intel.

В исследовательском документе подчеркиваются различия между интерполяцией и экстраполяцией, отмечается, что хотя кадровая интерполяция дает лучшие результаты, она вносит большую задержку. NVIDIA и AMD решили эту проблему с помощью технологий снижения задержек, таких как Reflex и Anti-Lag. Экстраполяция, с другой стороны, имеет меньшую задержку, но сталкивается с проблемами из-за отсутствия ключевой информации для генерации нового кадра. XeSS ExtraSS стремится преодолеть эту проблему с помощью нового метода деформации, обеспечивая лучшее качество при меньших задержках.

В тестах производительности при рендеринге Intel продемонстрировала свою приверженность кросс-вендорной поддержке, запустив метод XeSS Frame-Generation (экстраполяция) на системе с графическим процессором NVIDIA и процессором AMD Ryzen 9 5950X. Таким образом, Intel стала второй технологией генерации кадров, помимо FSR 3 от AMD, поддерживаемой всеми производителями.

Несмотря на то, что выход Intel на рынок технологий генерации кадров намечен на 2024 год, опыт работы компании с XeSS позволяет говорить о ее стремлении обеспечить качество и поддержку, пусть и с небольшой задержкой относительно AMD и NVIDIA. Технология генерации кадров Intel XeSS ExtraSS обещает открыть новые возможности для рендеринга в реальном времени, расширив границы производительности и фотореалистичного рендеринга в различных областях.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Gamesblender № 694: глобальный сбой в PSN, релиз Unreal Engine 5.5 и новый шутер по StarCraft 32 мин.
СМИ сообщают о грядущей ликвидации одной из российских альтернатив «Википедии» 3 ч.
В обновлённом Telegram появились подарки, подтверждение телефонов, улучшенные жалобы и RTMP-трансляции 6 ч.
Accenture сформировала подразделение NVIDIA Business Group и обучит 30 тысяч сотрудников полному стеку ИИ-технологий NVIDIA 10 ч.
Linux-вирус Perfctl заразил с 2021 года тысячи серверов и скрытно майнит на них криптовалюту 11 ч.
Началось открытое бета-тестирование браузера Arc для Android — он умеет ходить по сайтам за пользователя 13 ч.
Обновление Samsung привело к поломке смартфонов Galaxy S10 и Note 10 по всему миру 18 ч.
Минцифры опубликовало правила регистрации блогеров-десятитысячников в реестре Роскомнадзора 24 ч.
Telegram объяснил недавние сбои событиями на Ближнем Востоке 05-10 00:23
Надёжный инсайдер: ремейк Assassin’s Creed IV: Black Flag выйдет раньше, чем можно было представить 05-10 00:19