Сегодня 26 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → imagen

Google представила генератор картинок для тех, кто не любит писать — Whisk

Google анонсировала Whisk — основанный на искусственном интеллекте инструмент, который позволяет генерировать картинки, используя в качестве запроса другие изображения вместо длинных текстовых формулировок.

 Источник изображения: blog.google

Источник изображения: blog.google

Работая с Whisk, можно загружать изображения, используя образцы картинок в качестве основной темы, сцены или стиля. При желании можно дополнить их текстовыми подсказками; а если нужных картинок не окажется под рукой, система предложит свои — вероятно, также сгенерированные ИИ. Получив результат, можно добавить его в избранное или скачать; либо улучшить его, дополнив или отредактировав текстовый запрос. Whisk предназначается для «быстрого создания визуального эскиза, а не дотошного редактирования с точностью до пикселя»; он может «промахнуться», признают в Google, поэтому позволяет редактировать исходные подсказки.

В основу сервиса лёг последний вариант генератора изображений Imagen 3, который подразделение Google DeepMind анонсировало вместе с генератором видео Veo 2 — мощный конкурент OpenAI Sora пока доступен лишь ограниченному кругу пользователей экспериментальной платформы VideoFX.

Google запустила ИИ-генератор видео Veo, но вы вряд ли сможете его опробовать

Google Veo, новая модель искусственного интеллекта для генерации видеороликов, стала доступной для компаний, которые теперь могут подключать её к своим приложениям для создания контента. OpenAI представила аналогичную Sora на три месяца раньше, но работать с ней нельзя до сих пор, тогда как к Veo уже открыт предварительный доступ на платформе Google Vertex AI.

 Источник изображения: Google

Источник изображения: Google

Veo поддерживает генерацию видео «высокого качества» в разрешении 1080p в различных визуальных и кинематографических стилях по запросам в текстовом формате или в виде изображения. Во время анонса модели в мае эти ролики по продолжительности были немного длиннее минуты, но сейчас Google ограничений не указывает. Качество образцов действительно впечатляет: нужно очень внимательно всматриваться в видео, чтобы разглядеть признаки ИИ.

Помимо Veo, все клиенты Google Cloud «со следующей недели» смогут подключить через Vertex AI генератор изображений Imagen 3. Некоторым будут доступны дополнительные функции: редактирование фотографий по текстовым запросам или возможность добавить на сгенерированное изображение свой фирменный стиль. Veo и Imagen 3, уверяет Google, имеют встроенные средства защиты, которые не позволят создавать вредоносный контент или нарушать авторские права. Созданные обеими моделям материалы получают маркировку SynthID, указывающую на причастность генеративного ИИ.

Учитывая, что Google уже вывела свои продукты на рынок, OpenAI отстаёт от конкурентов, и у неё остаётся всё меньше времени, чтобы выполнить своё обещание и выпустить Sora до конца 2024 года.

Продвинутый ИИ-художник Imagen 3 стал доступен всем пользователям Google Gemini

Как Google пообещала в августе, модель искусственного интеллекта для генерации изображений стала доступной для всех пользователей службы Gemini.

 Источник изображения: x.com/GeminiApp

Источник изображения: x.com/GeminiApp

Обновлённую модель Imagen 3, представленную в мае на мероприятии Google I/O 2024, по версии разработчика, отличают три аспекта:

  • потрясающее качество изображения — чёткие детали, яркие цвета и уменьшенное число недостатков;
  • реалистичные визуальные эффекты — яркие фотореалистичные детали;
  • разнообразие стилей — от классического масла до современного цифрового искусства.

Для создания изображений пользователям необходимо использовать в запросах к Gemini слова вроде «нарисуй» или «создай»; можно указать желаемый стиль, например, «фотореалистичная акварель» или «мультяшная иллюстрация»; помогут и детальные пояснения. В ответ чат-бот пояснит, что картинка создаётся при помощи Imagen 3; кроме того, скачиваемый файл получит пометку SynthID. Воспользоваться генератором изображений могут и пользователи бесплатных учётных записей, но для них возможности пока ограничены — система откажется создавать картинки с людьми. Первыми доступ к Imagen 3 получили англоязычные пользователи подписок Gemini Advanced, Business и Enterprise.

Google открыла всем американским пользователям доступ к генератору изображений Imagen 3

Google без громких анонсов открыла всем пользователям из США доступ к последней модели генератора изображений с искусственным интеллектом Imagen 3 на платформе ImageFX. Компания также опубликовала исследовательскую работу, в которой подробно описывается эта технология.

 Источник изображения: deepmind.google

Источник изображения: deepmind.google

Модель Imagen 3 была анонсирована в мае на конференции Google I/O и выпущена в ограниченный доступ для пользователей платформы Vertex AI. «Представляем Imagen 3 — модель скрытой диффузии, которая генерирует высококачественные изображения по текстовым запросам. На момент проведения оценки Imagen 3 является более предпочтительной, чем другие современные модели», — говорится в научной работе.

Выпуск Google нового генератора изображений для широкой общественности в США — важный стратегический шаг для компании, вступившей в гонку технологий ИИ. С одной стороны, разработчику удалось повысить качестве её работы, с другой — модель подвергается критике за излишне строгие фильтры контента. Пользователи Reddit, в частности, сообщают, что генератор изображений отклоняет до половины запросов, даже если не предлагать ему «нарисовать» нечто сомнительное — дошло до того, что он отказался создать изображение киборга.

Это резко контрастирует с подходом стартапа Илона Маска (Elon Musk) xAI, который на этой неделе выпустил модель Grok-2. Она генерирует изображения практически без ограничений, допуская создание картинок с общественными деятелями и деталями, которые на других платформах считаются недопустимыми. Это тоже вызвало недоумение общественности и породило предположения, что на xAI будет оказываться давление. Перед отраслью ИИ встаёт вопрос о балансе между творчеством и ответственностью, а также возможном влиянии генераторов изображений на публичный дискурс и достоверность информации.

Google анонсировала свой самый мощный ИИ-генератор изображений Imagen 3

В рамках проходящей в эти дни в Маунтин-Вью конференции Google I/O состоялся анонс новой версии генеративной нейросети семейства Imagen. Речь идёт об алгоритме Imagen 3 — самом продвинутом генераторе изображений от Google на данный момент.

 Источник изображения: Google

Источник изображения: Google

Глава исследовательского ИИ-подразделения Google Deep Mind Демис Хассабис (Demis Hassabis) во время презентации заявил, что Imagen 3 более точно понимает тестовые запросы, на основе которых он создаёт изображения, чем модель Imagen 2. Он отметил, что алгоритм работает более «креативно и детализировано», а также реже ошибается и создаёт меньше «отвлекающих артефактов».

Вместе с этим Google попыталась развеять опасения по поводу того, что Imagen 3 будет использоваться для создания дипфейков. В процессе генерации изображений будет задействована технология SynthID, посредством которой на медиафайлы наносятся невидимые криптографические водяные знаки. Предполагается, что такой подход сделает бесполезными попытки использовать ИИ-генератор Google для создания фейкового контента.

Частные пользователи могут оформить подписку на Imagen 3 через сервис Google ImageFX. Разработчики и корпоративные клиенты получат доступ к ИИ-генератору через платформу машинного обучения Vertex AI. Как и в прошлом, в этот раз Google не поделилась подробностями касательно того, какие данные использовались для обучения нового алгоритма.

ИИ-генератор Google Imagen 2 научился создавать 4-секундные анимированные изображения

Google сообщила, что генератор изображений Imagen 2 получил с очередным обновлением возможность создавать анимированные 4-секундные ролики. Модель также научилась по текстовым запросам редактировать готовые изображения, добавляя на них новые объекты или убирая их; а все новые картинки помечаются невидимыми цифровыми водяными знаками.

 Источник изображения: deepmind.google

Источник изображения: deepmind.google

На мероприятии Google Cloud Next разработчик сообщил, что Imagen 2 теперь генерирует 4-секундные анимированные ролики с разрешением 360 × 640 пикселей и частотой 24 кадра в секунду. Google также пообещала в этом направлении «постоянные усовершенствования». «Если взглянуть, вместо картинки объекта, например, статического изображения автомобиля, можно увидеть короткий ролик, например, движущейся машины. Многим организациям, особенно в таких областях как СМИ и реклама, это интересно, потому что это улучшает взаимодействие с пользователем», — пояснил гендиректор Google Cloud Томас Куриан (Thomas Kurian).

Генератор Imagen 2 создаёт изображения, используя различные ракурсы и движения камеры, «при этом сохраняя согласованность всей последовательности». Модель предлагает фильтры безопасности, которые предотвращают создание недопустимых материалов, и цифровые водяные знаки SynthID, позволяющие отслеживать созданные ИИ произведения. Imagen 2 также научился редактировать изображения, добавляя или удаляя элементы по текстовому запросу, и расширять границы изображения для увеличения обзора. Все эти возможности доступны на облачной платформе Vertex AI.

В популярных материалах для обучения нейросетей нашли изображения сексуального насилия над детьми

Исследователи из Стэнфорда обнаружили, что популярный набор данных LAION-5B, используемый для обучения моделей генеративного искусственного интеллекта, и применявшийся для Stable Diffusion и Google Imagen, включает в себя сотни ссылок на материалы сексуального насилия над детьми (Child Sexual Abuse Material — CSAM). Установлено, что LAION-5B включал по меньшей мере 1679 нелегальных изображений, взятых из постов в социальных сетях и популярных сайтов для взрослых.

 Источник изображения: LAION

Источник изображения: LAION

Исследователи начали изучение набора данных LAION в сентябре 2023 года, стремясь выяснить, используются ли там материалы с сексуальным насилием над детьми. С этой целью хеши или идентификаторы изображений отправлялись на платформы обнаружения CSAM, такие как PhotoDNA, и в Канадский центр защиты детей.

Исследователи из Стэнфорда отметили, что наличие CSAM в наборе данных для обучения ИИ не обязательно негативно повлияет на результаты обученных моделей. Тем не менее, всегда есть вероятность, что модель использует что-то из незаконных материалов при генерации изображений. «Наличие повторяющихся идентичных случаев CSAM также является проблематичным, особенно из-за увеличения вероятности получения изображений конкретных жертв», — говорится в отчёте.

LAION, некоммерческая организация, которая управляет набором данных, сообщила, что придерживается политики «нулевой терпимости» к вредоносному контенту и временно удалит наборы данных из Сети. Согласно сайту LAION, набор данных не является непосредственно репозиторием изображений. Он представляет собой результат индексирования ресурсов интернета и содержит ссылки на изображения и замещающий текст.

Stability AI сообщила, что внутренние правила компании запрещают неправомерное использование её платформ. Компания утверждает, что при обучении своих моделей на наборе данных LAION-5B, она использовала лишь часть материалов, которые отбирались в том числе и с учётом безопасности.

Эксперты полагают, что будет сложно полностью удалить проблемный контент из моделей ИИ, обученных на нём. Они рекомендуют подождать, чтобы модели, обученные на LAION-5B, такие как Stable Diffusion 1.5, «устарели, а распространение прекратилось там, где это возможно». Google выпустила новую версию Imagen, но не раскрыла, на каком наборе данных она обучалась.

Генеральные прокуроры США призвали Конгресс создать комитет для расследования влияния ИИ на эксплуатацию детей и запретить создание CSAM, генерируемого ИИ.


window-new
Soft
Hard
Тренды 🔥
Activision сыграет в кальмара: новый трейлер раскрыл, когда в Call of Duty: Black Ops 6 стартует кроссовер со Squid Game 2 18 мин.
«К чёрту Embracer Group»: неизвестный устроил утечку исходного кода Saints Row IV 2 ч.
Отечественная платформа Tantor повысит производительность и удобство работы с СУБД на базе PostgreSQL 5 ч.
В Steam вышла новая демоверсия голливудской стратегии Hollywood Animal от авторов This is the Police 5 ч.
IT-холдинг Т1 подал иск к «Марвел-Дистрибуции» в связи с уходом Fortinet из России 6 ч.
Рождественское чудо: в открытый доступ выложили документы Rockstar начала 2000-х, включая планы на GTA Online от 2001 года 7 ч.
«Битрикс24» представил собственную ИИ-модель BitrixGPT 8 ч.
За 2024 год в Китае допустили к релизу более 1400 игр — это лучший результат за последние пять лет 8 ч.
Google применила конкурирующего ИИ-бота Anthropic Claude для улучшения своих нейросетей Gemini 9 ч.
Платформер Restitched отправит исследовать и создавать красочные миры — геймплейный трейлер духовного наследника LittleBigPlanet 10 ч.
Главный конкурент Tesla запустил разработку человекоподобных роботов 9 мин.
Omdia: быстрый рост спроса на TPU Google ставит под вопрос доминирование NVIDIA на рынке ИИ-ускорителей 2 ч.
Российскую игровую приставку собрались построить на процессоре «Эльбрус», для которого не существует игр 3 ч.
Ubitium придумала универсальный процессор — он один выполняет работу CPU, GPU, FPGA и DSP 3 ч.
Equinix предложил ИИ-фабрики на базе систем Dell с ускорителями NVIDIA 3 ч.
NASA показало «рождественскую ель» галактического масштаба 4 ч.
Китайский оператор ЦОД Yovole может выйти на IPO в США — после неудавшейся попытки в Китае 4 ч.
Patriot представила SSD P400 V4 PCIe 4.0 — до 4 Тбайт и до 6200 Мбайт/с 4 ч.
OnePlus представила доступные флагманы Ace 5 и Ace 5 Pro со Snapdragon, большими экранами и до 16 Гбайт ОЗУ 5 ч.
Китайский робопёс Unitree B2-W показал чудеса ловкости при езде по пересечённой местности и воде 6 ч.