Сегодня 25 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → изображения
Быстрый переход

Чем больше у смартфонов камер, тем лучше для Sony — компания за пять лет удвоила число выпущенных датчиков до 20 млрд

Цифровые камеры благодаря смартфонам давно стали вездесущими, и мало кто задумывается, в каких количествах выпускаются используемые в их составе компоненты. Между тем, президент Sony Ёсихиро Ямагути (Yoshihiro Yamaguchi) в интервью Nikkei недавно подтвердил, что за время своего присутствия на рынке компания успела поставить 20 млрд датчиков изображений для цифровых камер, в том числе смартфонных камер.

 Источник изображения: Sony

Источник изображения: Sony

Что характерно, середину этого пути Sony успела пройти к маю 2019 года, и для удвоения результата ей потребовалось чуть более пяти лет. Производитель не считает, что рынок демонстрирует признаки насыщения, а потому будет наращивать мощности по выпуску датчиков изображений. Поскольку на западе острова Кюсю в префектуре Кумамото уже начало работать предприятие TSMC по выпуску чипов для Sony, здесь же последняя строит и новое предприятие по выпуску датчиков изображений. Свою деятельность в этой сфере Sony начала ещё в восьмидесятые годы прошлого века.

Тем не менее, позициям японского гиганта на рынке компонентов для камер смартфонов начала угрожать Samsung Electronics. По крайней мере, некоторые источники приписывают Apple намерения начать оснащение iPhone датчиками изображений Samsung. Слухи указывают, что как минимум 48-мегапиксельная камера этих смартфонов с широкоугольной оптикой будет поставляться Samsung. До сих пор Sony была основным поставщиком датчиков изображений для смартфонов Apple.

Во втором квартале текущего фискального года, который начался в апреле, Sony продемонстрировала рост выручки от поставки датчиков изображений на 32 % до $3,4 млрд, хотя общая выручка компании увеличилась всего на 3 % до $19,44 млрд. Операционная прибыль подразделения выросла почти в два раза до $589 млн.

Google представила генератор картинок для тех, кто не любит писать — Whisk

Google анонсировала Whisk — основанный на искусственном интеллекте инструмент, который позволяет генерировать картинки, используя в качестве запроса другие изображения вместо длинных текстовых формулировок.

 Источник изображения: blog.google

Источник изображения: blog.google

Работая с Whisk, можно загружать изображения, используя образцы картинок в качестве основной темы, сцены или стиля. При желании можно дополнить их текстовыми подсказками; а если нужных картинок не окажется под рукой, система предложит свои — вероятно, также сгенерированные ИИ. Получив результат, можно добавить его в избранное или скачать; либо улучшить его, дополнив или отредактировав текстовый запрос. Whisk предназначается для «быстрого создания визуального эскиза, а не дотошного редактирования с точностью до пикселя»; он может «промахнуться», признают в Google, поэтому позволяет редактировать исходные подсказки.

В основу сервиса лёг последний вариант генератора изображений Imagen 3, который подразделение Google DeepMind анонсировало вместе с генератором видео Veo 2 — мощный конкурент OpenAI Sora пока доступен лишь ограниченному кругу пользователей экспериментальной платформы VideoFX.

Чат-бот Grok от xAI Илона Маска обзавёлся генератором фотореалистичных изображений

Концентрация нескольких динамично развивающихся компаний в руках Илона Маска (Elon Musk) приводит к их взаимной интеграции, а чат-бот Grok уже давно доступен подписчикам социальной сети X, а вчера он добрался и до бесплатных пользователей. Функциональность первого недавно дополнилась новым генератором изображений Aurora, который способен создавать фотореалистичные изображения, пусть и не лишённые недостатков.

 Источник изображения: X, EnsoMatt

Источник изображения: X, EnsoMatt

Бета-версия генератора изображений Aurora, как отмечает TechCrunch, стала доступна пользователям социальной сети X на вкладке Grok вчера. Доступ к этим возможностям не требует подписки, но имеет ограничения в бесплатном варианте. В частности, без подписки нельзя направить чат-боту Grok более 10 запросов за два часа, а количество генерируемых Aurora изображений ограничено тремя штуками в день. Кстати, некоторые пользователи X уже успели обнаружить, что лишены доступа к Aurora. Официально этот генератор изображений находится в бета-версии.

Это уже второй генератор изображений для Grok компании xAI. Если в случае с первым, Flux, стартап Илона Маска сотрудничал с другими разработчиками, то история происхождения второго, Aurora, пока не раскрывается. По крайней мере, представители xAI только успели заявить, что принимали участие в настройке данной системы. Пользователи социальной сети X начали выкладывать образцы сгенерированных Aurora изображений, на одном из них можно лицезреть Адама Сэндлера (Adam Sandler) и его партнёра по сериалу Рэя Романо (Ray Romano), и если лица актёров на сгенерированных изображениях оказались похожими на настоящие, то с пальцами рук у генератора изображений возникли традиционные проблемы. Как отмечается, пейзажи и натюрморты у Aurora получаются гораздо лучше, но и там не обходится без дефектов.

Google предложила помощь ИИ в создании клипартов для документов

На платформе Google Workspace появился генератор изображений на основе искусственного интеллекта Gemini прямо в приложении «Google Документы» — он позволяет быстро создавать иллюстрации к текстам. По сути, это генератор клипартов, схожий с аналогичной функцией в офисном пакете Microsoft.

 Источник изображения: workspaceupdates.googleblog.com

Источник изображения: workspaceupdates.googleblog.com

Генератор изображений для «Google Документов» доступен для обладателей платных учётных записей Workspace, в том числе Gemini Business, Enterprise, Education, Education Premium и Google One AI Premium. Те, у кого новая функция уже заработала, могут открыть её через меню «Вставка», в котором требуется последовательно выбрать пункты «Изображение» и «Помогите мне создать изображение». Появляется боковая панель, на которой можно ввести описание требуемой иллюстрации; на ней же есть выпадающий список художественных стилей — например, «Фотография» или «Эскиз».

Изображение будет квадратным либо вытянутым в горизонтальном или вертикальном направлении — можно выбрать то, что лучше впишется в макет документа. Доступно создание и изображения для обложки, которое протянется на всю страницу. За новую функцию отвечает новейший генератор Google Imagen 3 — он, по словам компании, обеспечивает «лучшую детализацию, более насыщенное освещение и меньше лишних артефактов». У части учётных записей новая функция появится в ближайшие 15 дней; для других она начнёт развёртываться 16 декабря.

StabilityAI представила улучшенную ИИ-модель для генерации изображений Stable Diffusion 3.5

Компания StabilityAI представила новую версию ИИ-модели для генерации изображений Stable Diffusion 3.5 с улучшенным реализмом, точностью и стилизацией. По сообщению Tom's Guide, модель бесплатна для некоммерческого использования, включая научные исследования, а также для малых и средних предприятий с доходом до $1 млн.

 Источник изображения: StabilityAI

Источник изображения: StabilityAI

Как и предыдущая версия SD3, Stable Diffusion 3.5 доступен в трёх конфигурациях: Large (8B), Large Turbo (8B) и Medium (2,6B). Все конфигурации оптимизированы для работы на обычном пользовательском оборудовании и их можно настраивать. В своём пресс-релизе StabilityAI признала, что модель Stable Diffusion 3 Medium, выпущенная в июне, не полностью соответствовала стандартам и ожиданиям сообщества. «После того как мы выслушали ценные отзывы, вместо быстрого исправления мы решили уделить время разработке версии, которая продвигает нашу миссию по трансформации визуальных медиа», — сказали в компании.

Новые модели ориентированы на возможность гибкой настройки, высокую производительность и разнообразие результатов. Поддерживаются стилистические настройки, включая фотографию и живопись. Для указания определённого стиля можно также использовать хештеги, например, boho, impressionism или modern. Ещё можно выделять ключевые слова в запросе для получения более реалистичных изображений.

Модель Stable Diffusion 3.5 Large лидирует на рынке по лучшему соответствию запросам и качеству изображений. Модель Turbo имеет минимальное время вывода результатов. Medium превосходит другие модели в плане баланса между качеством изображений и соответствия запросам, что делает её, по утверждению компании, самым эффективным выбором для создания контента.

Все три конфигурации свободно доступны по лицензии Stability AI Community License. Для использования в коммерческих целях потребуется лицензия Enterprise License.

Представлена ИИ-модель YandexART 2.0 с поддержкой генерации текста на изображениях

«Яндекс» выпустил YandexART 2.0 — генератор картинок нового поколения. Нейросеть научилась создавать надписи на изображении и выдерживать на одной картинке сразу несколько стилей; объекты в пространстве и относительно друг друга теперь располагаются более естественно; а при создании изображений учитывается большее число деталей запроса.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

Отличительной особенностью YandexART 2.0 является гибридная архитектура нейросети, сочетающая черты свёрточной и трансформерной моделей. Свёрточная модель работает по принципу человеческого глаза, определяя ключевые признаки объекта, например, его форму, текстуру и края, но она ограничена в длине контекста, поэтому в длинных запросах ей помогает трансформер. Эта архитектура помогает YandexART 2.0 выдерживать несколько жанров в одном изображении — к примеру, она может изобразить анимешную этикетку на фотореалистичной бутылке лимонада.

Для обучения нейросети YandexART 2.0 использовались несколько сотен миллионов пар изображений и текстовых описаний к ним; более точное их соотношение обеспечила дополнительная VLM-модель, при помощи которой картинки анализировались и сопровождались подробными текстовыми описаниями. Массив обучающих данных был расширен за счёт нескольких сотен тысяч изображений с текстом — это помогло YandexART 2.0 дополнять картинки надписями латинскими буквами.

«Яндекс» также разработал собственную систему оценки качества работы для генератора изображений: новая модель выиграла у Midjourney v6.1 по критериям комплексности и эстетичности в 66 % и 58 % случаев соответственно, а также приблизилась к нему в аспекте релевантности запросам.

Бизнес-пользователи могут поработать с YandexART 2.0 на платформе Yandex Cloud — при помощи API можно интегрировать генератор изображений в любые приложения; есть возможность протестировать её работу в демонстрационном режиме для подбора оптимальных запросов. Корпоративные клиенты могут генерировать логотипы, иллюстрации для статей, презентаций или социальных сетей.

Визуальная нейросеть доступна также частным пользователям в веб-версии «Алисы» и собственном приложении виртуального помощника; владельцы бесплатных учётных записей могут запросить до пяти изображений в сутки, а у подписчиков опции «Алиса Про» такое ограничение отсутствует. С YandexART 2.0 можно создать аватарку для соцсетей, значок приложения, принт для футболки, открытку для друга или иллюстрацию для публикации.

А вот как выглядят чиплеты в Intel Arrow Lake-S — совсем не так, как в Ryzen 9000

В сети появился первый снимок кристалла новых настольных процессоров Intel Core Ultra (Arrow Lake-S). В частности, в кадр попала флагманская модель процессора Core Ultra 9 285K со снятой теплорассеивающей крышкой, его задняя и передняя стороны.

 Источник изображения: X / @CodeCommando_

Источник изображения: X / @CodeCommando_

Судя по снимку, Intel не пожалела герметика для крепления термораспредительной крышки процессора к микросхеме. Однако куда более интересной деталью на изображении является кристалл процессора Core Ultra 9 285K, вернее его набор кристаллов. В отличие от Raptor Lake, Arrow Lake-S имеет плиточную (чиплетную) структуру, соответствующую более ранним схематичным изображениям.

В составе процессоров Arrow Lake-S используется четыре чиплета (плитки). Intel впервые будет применять такую конфигурацию для кристаллов своих настольных процессоров. В набор входят чиплет со встроенной графикой, чиплет SoC, чиплет с вычислительными ядрами процессора, а также чиплет ввода-вывода (I/O die). Примечательно, что в составе кристалла также присутствуют два кристалла-пустышки (dummy). Кроме того, ещё один кристалл с межсоединениями используется в нижнем слое — на нём смонтированы все чиплеты, видимые на фото.

 Источник изображения: YouTube / Moore’s Law is Dead

Источник изображения: YouTube / Moore’s Law is Dead

Некоторое время назад в сети также появилась схема процессоров Arrow Lake-S, которой поделился пользователь Jaykihn.

 Источник изображения: X / @jaykihn0

Источник изображения: X / @jaykihn0

Intel официально представит новую серию процессоров Arrow Lake-S 10 октября. Эту информация компания подтвердила прессе, но не публично.

Технология масштабирования AMD FSR 4.0 будет полностью основана на ИИ и повысит энергоэффективность GPU

Старший вице-президент и генеральный менеджер группы вычислительных и графических решений AMD Джек Гуинь (Jack Huynh) сообщил порталу Tom’s Hardware, что компания AMD уже ведёт разработку технологии масштабирования изображения FidelityFX Super Resolution 4.0. Она будет отличаться от актуальной версии FSR 3.0.

В масштабном интервью на выставке электроники IFA 2024, проходившей в Берлине, Tom’s Hardware расспросил топ-менеджера AMD о планах компании на ближайшее будущее. Из этого разговора, например, стало известно, что AMD хочет объединить RDNA для игр и CDNA для ИИ-ускорителей в единую графическую архитектуру UDNA, сместить акцент с ограниченного сегмента флагманских видеокарт для энтузиастов и увеличить своё присутствие в массовом сегменте GPU, а также выпустить процессоры Kraken для ноутбуков Copilot+ PC стоимостью до $799.

Ещё одной темой обсуждения стала новая технология масштабирования FidelityFX Super Resolution 4.0, которую Гуинь затронул при разговоре о портативных приставках. По его словам, AMD занимается разработкой FSR 4.0 уже около года. Новая технология будет полностью полагаться на ИИ-алгоритмы, а одно из её ключевых преимуществ связано с повышением энергоэффективности GPU, которые используются в портативных игровых приставках.

«Что касается портативных устройств, то мой главный приоритет — это время работы от батареи. Если посмотреть на Asus ROG Ally или Lenovo Legion Go, то там практически нет времени работы от батареи. Мне нужно несколько часов. Мне нужна возможность играть в Wukong три часа, а не 60 минут. Вот где вступают в дело генерация кадров и интерполяция, поэтому мы и работаем над FSR 4. Технологии FSR2 и FSR3 основаны на аналитической генерации. Они были основаны на фильтрах. Мы сделали так, потому что хотели быстро выйти на рынок с этим решением. Однако потом я сказал команде: “Ребята, это не то, куда движется будущее”. Поэтому мы полностью изменили подход около 9–12 месяцев назад, чтобы перейти на ИИ», — заявил Гуинь.

«Теперь мы переходим на генерацию кадров на основе ИИ, интерполяцию кадров. Идея заключается в повышении эффективности для максимального увеличения времени автономной работы от батареи. И уже тогда мы могли бы зафиксировать количество кадров в секунду, может быть, на уровне 30 или 35. Моя главная цель сейчас — максимально увеличить время работы от батареи. Я думаю, что это самая большая жалоба [потребителей]», — добавил Гуинь.

В своём комментарии представитель AMD ничего не сказал об использовании FSR 4.0 с другими устройствами, например ноутбуками. Будет ли новая технология масштабирования в этом случае полагаться на ИИ-ускорители (NPU) в составе тех же процессоров Strix Point? Ответа на этот вопрос пока нет.

AMD пока не готова говорить о том, когда новая технология масштабирования будет официально представлена. Если FSR 4.0 уже находится в разработке 9–12 месяцев, то она вполне может быть почти готова к выпуску. Однако, как показывают примеры прошлых решений по масштабированию, включая DLSS и XeS наряду с FSR 1/2/3, выпуск API — это лишь первый шаг. Реализация поддержки игр для нового API занимает гораздо больше времени.

Google наконец починила ИИ-генератор изображений в Gemini — он перебарщивал с расовой инклюзивностью

Компания Google скоро вернёт пользователям доступ к генератору картинок в ИИ-чат-боте Gemini. Функция была удалена из чат-бота в феврале из-за того, что что она допускала серьёзные исторические ошибки в изображении людей, связанные с расовыми и гендерными вопросами. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм.

 Источник изображения: Google

Источник изображения: Google

Ранний доступ к новому генератору изображений Imagen 3 от Google откроется платным пользователям Gemini на тарифах Advanced, Business и Enterprise в ближайшие дни, сообщил в официальном блоге Google Дэйв Ситрон (Dave Citron), старший директор по продуктам Gemini. Изначально функция будет поддерживать запросы только на английском языке.

«Мы внесли технические исправления в продукт, а также поработали над более продвинутыми алгоритмами оценки и защитой от red-teaming-атак», — написал Ситрон.

В феврале этого года Google приостановила работу функцию генерации изображений в Gemini, объяснив это тем, что она предлагает «неточности» при генерации исторических изображений. Компания приняла решение направить генератор изображений Gemini на доработку менее чем через сутки после поступления первых жалоб.

По словам Ситрона, новый генератор Imagen 3 «не поддерживает создание фотореалистичных идентифицируемых лиц, изображений несовершеннолетний или чрезмерно кровавые, жестокие или сексуальные сцены».

«Конечно, как и в случае с любым генеративным инструментом ИИ, не каждое изображение, создаваемое Gemini, будет идеальным, но мы продолжим прислушиваться к отзывам пользователей и будем совершенствовать наш продукт».

Он также пообещал, что в дальнейшем пользоваться генератором изображений смогут больше людей, а сама функция получит поддержку дополнительных языков.

Веб-версия генератора изображений Midjourney стала доступной для всех

Генеральный директор Midjourney Дэвид Хольц (David Holz) сообщил в Discord, что любой желающий теперь может открыть сайт сервиса и начать генерировать изображения. Бесплатная демо-версия платформы позволяет создать до 25 картинок.

 Источник изображения: Swello / unsplash.com

Источник изображения: Swello / unsplash.com

Ранее для доступа к генератору Midjourney было необходимо пользоваться мессенджером Discord. Это было непросто, потому что приходилось особым образом составлять запросы. Чтобы привлечь пользователей, которым в Discord не нравилось, был запущен сайт платформы, но к работе в веб-интерфейсе допустили лишь тех, кто создал не менее 10 000 изображений через мессенджер. Теперь же сайт Midjourney открыт для всех желающих. Для регистрации потребуется учётная запись в Google или Discord — обладатели аккаунтов на обеих платформах могут подключить их к одной учётной записи в Midjourney и входить через любую их двух.

После входа в систему набор основных инструментов доступен на левой боковой панели. Можно ознакомиться с изображениями, созданным по запросам других пользователей или попробовать сгенерировать картинку самостоятельно, предварительно посмотрев обучающий ролик. В верхней части страницы есть поле для ввода запроса, в ответ на который Midjourney предложит четыре изображения — качество наиболее удачного настраивается с помощью специальных инструментов: уменьшить, увеличить картинку или скорректировать ракурс. Есть и редактор изображений, где можно скорректировать запрос, изменить определённые области картинки, выбрать другое соотношение сторон и добавить новые элементы.

Есть раздел, где собраны все созданные пользователем изображения. Картинку из коллекции можно посмотреть, изменить, скопировать или скачать. На сайте доступны чаты, где можно посмотреть, что создали другие люди, или разместить собственное изображение. По исчерпании лимита в 25 картинок Midjourney предложит оформить подписку на один из четырёх тарифных планов — они отличаются ценами и квотами на число изображений.

Google открыла всем американским пользователям доступ к генератору изображений Imagen 3

Google без громких анонсов открыла всем пользователям из США доступ к последней модели генератора изображений с искусственным интеллектом Imagen 3 на платформе ImageFX. Компания также опубликовала исследовательскую работу, в которой подробно описывается эта технология.

 Источник изображения: deepmind.google

Источник изображения: deepmind.google

Модель Imagen 3 была анонсирована в мае на конференции Google I/O и выпущена в ограниченный доступ для пользователей платформы Vertex AI. «Представляем Imagen 3 — модель скрытой диффузии, которая генерирует высококачественные изображения по текстовым запросам. На момент проведения оценки Imagen 3 является более предпочтительной, чем другие современные модели», — говорится в научной работе.

Выпуск Google нового генератора изображений для широкой общественности в США — важный стратегический шаг для компании, вступившей в гонку технологий ИИ. С одной стороны, разработчику удалось повысить качестве её работы, с другой — модель подвергается критике за излишне строгие фильтры контента. Пользователи Reddit, в частности, сообщают, что генератор изображений отклоняет до половины запросов, даже если не предлагать ему «нарисовать» нечто сомнительное — дошло до того, что он отказался создать изображение киборга.

Это резко контрастирует с подходом стартапа Илона Маска (Elon Musk) xAI, который на этой неделе выпустил модель Grok-2. Она генерирует изображения практически без ограничений, допуская создание картинок с общественными деятелями и деталями, которые на других платформах считаются недопустимыми. Это тоже вызвало недоумение общественности и породило предположения, что на xAI будет оказываться давление. Перед отраслью ИИ встаёт вопрос о балансе между творчеством и ответственностью, а также возможном влиянии генераторов изображений на публичный дискурс и достоверность информации.

Художники одержали важную победу в деле об авторских правах против Stability AI и Midjourney

Группа художников, которая объединилась в коллективном иске против разработчиков наиболее популярных моделей искусственного интеллекта для генерации изображений, устроила празднование по случаю того, что судья дал ход этому делу и санкционировал раскрытие информации.

 Источник изображения: Alexandra_Koch / pixabay.com

Источник изображения: Alexandra_Koch / pixabay.com

Ответчиками по делу выступают создатели сервисов Midjourney, Runway, Stability AI и DeviantArt — по версии истцов, разработчики систем на основе модели Stable Diffusion использовали их защищённые авторским правом работы для обучения ИИ. Судья Северного окружного суда Калифорнии Уильям Оррик (William H. Orrick), курирующий Сан-Франциско, где располагаются многие крупнейшие разработчики систем ИИ, пока не вынес окончательного решения по делу, но счёл, что предъявленных ответчикам обвинений достаточно, чтобы дело перешло к стадии раскрытия информации. Это значит, что представляющие истцов юристы могут изучить документы компаний — разработчиков генераторов изображений с ИИ; огласке будут преданы подробности о массивах обучающих данных, механизмах и внутренней работе систем.

Модель Stable Diffusion предположительно обучалась на наборе данных LAION-5B из 5 млрд изображений, который был опубликован в 2022 году. Но, как отмечается в деле, эта база содержала только URL-адреса, то есть ссылки на изображения, а также их текстовые описания, то есть компаниям приходилось самостоятельно собирать эти изображения.

Основанные на Stable Diffusion модели используют в работе механизм «CLIP-guided diffusion», помогающий им при генерации изображений отталкиваться от пользовательских запросов, которые могут включать имена художников. Метод CLIP (Contrastive Language-Image Pre-training) разработала и ещё в 2021 году опубликовала компания OpenAI — более чем за год до выпуска ChatGPT. Модель OpenAI CLIP способна работать как база данных по фирменному стилю, и если при обучении схожей с ней модели Midjourney использовались имена художников и их работы с сопоставленными с ними описаниями, то этот факт может представлять собой нарушение авторских прав.

Стартап Black Forest Labs представил ИИ-генератор изображений FLUX.1 — он отлично справляется с прорисовкой рук человека

В конце прошлой недели стартап Black Forest Labs объявил о начале своей деятельности в сфере разработки генеративных нейросетей. Вместе с этим компания, созданная выходцами из Stability AI, представила семейство моделей генерации изображений по текстовому описанию под названием FLUX.1, которые претендуют на звание лучших в своём классе.

 Источник изображений: FLUX.1

Источник изображений: FLUX.1

Запуск FLUX.1 произошёл примерно через семь недель после того, как в середине июня Stability AI выпустила ИИ-генератор Stable Diffusion 3 Medium, который собрал много критики из-за невысокого качества при создании изображений, на которых есть люди. Пользователи активно делились в соцсетях результатами генерации алгоритма с искажёнными конечностями и телами людей.

Запуск Stable Diffusion 3 Medium последовал за уходом из Stability AI трёх ключевых сотрудников — Робина Ромбаха (Robin Rombach), Андреаса Блаттманна (Andreas Blattmann) и Доминика Лоренца (Dominik Lorenz). Именно они вместе с Патриком Эссером (Patrick Esser), который участвовал в разработке первой версии Stable Diffusion и с тех пор работал над разными ИИ-алгоритмами, а также другими инженерами, основали компанию Black Forest Lab.

На данный момент стартап представил три модели для генерации по текстовому описанию FLUX.1. ИИ-модель FLUX.1 pro представляет собой наиболее производительный генератор изображений, предназначенный для коммерческого использования через соответствующий API. Вместе с этим были выпущены FLUX.1 dev, доступная для некоммерческого использования, а также более лёгкая и быстрая FLUX.1 schnell (в переводе с немецкого — «быстрый» или «стремительный»).

Разработчики утверждают, что их ИИ-модели превосходят существующие аналоги, такие как Midjourney и DALL-E, по целому ряду показателей, включая качество создаваемых изображений и точность следования исходному описанию. В целом результаты генерации FLUX.1 сопоставимы с тем, что можно создать с помощью DALL-E 3 от OpenAI по точности следования описанию, и близки по фотореалистичности к Midjourney 6. При этом алгоритм явно более качественно работает по сравнению со Stable Diffusion XL, последним крупным релизом команды этих разработчиков, когда они ещё были частью Stability AI, не считая Stable Diffusion XL Turbo.

Модели Black Forest Lab построены на базе гибридной архитектуры, которая объединяет методы трансформации и диффузии, с масштабированием до 12 млрд параметров. Похоже, что такой подход делает нейросеть FLUX.1 способной качественно генерировать руки человека, что было слабым местом многих уже выпущенных на рынок аналогов. При этом разработчики не уточнили, на каких данных обучались модели FLUX.1.

Отметим, что Black Forest Lab уже привлекла финансирование в размере $31 млн. Желающим опробовать FLUX.1 в действии можно воспользоваться сервисами Fal.ai или Replicate.com, где придётся платить деньги для работы с алгоритмами.

Google начала масштабную зачистку поисковой выдачи от откровенных фейковых изображений

Google внедрила новые функции онлайн-безопасности, которые упрощают масштабное удаление откровенных дипфейковых изображений из поискового индекса и предотвращают их появление на первых позициях результатов поиска. При удалении поддельного контента по запросам пользователей будут также удалены все возможные дубликаты и отфильтрованы результаты по похожим запросам.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Эти меры защиты уже доказали свою эффективность в борьбе с другими типами изображений, полученных без согласия правообладателей, и теперь мы создали те же возможности и для поддельных откровенных изображений, — заявила менеджер по продуктам Google Эмма Хайэм (Emma Higham). — Эти усилия призваны дать людям дополнительное спокойствие, особенно если они опасаются появления подобного контента в будущем».

Позиции сайтов в индексе Google будут скорректированы, чтобы противодействовать поиску явного фейкового контента. Например, на поисковые запросы, которые намеренно запрашивают поддельные изображения реального человека, поисковая система будет выдавать «высококачественный, корректный контент», например, соответствующие новостные статьи. Сайты со значительным количеством фейковых изображений откровенного характера будут понижены в рейтинге поиска Google.

Google утверждает, что предыдущие обновления в этом году более чем на 70 процентов снизили появление в поисковой выдаче откровенных изображений по запросам дипфейкового контента. Перед компанией стоит задача научить поисковую систему отличать реальный откровенный контент, например, изображения обнажённого тела, сделанные по обоюдному согласию, от фейков, чтобы сохранить возможность демонстрации законных изображений.

Ранее Google уже предпринимала усилия для решения проблемы появления опасного или откровенного контента в интернете. В 2022 году компания расширила перечень персональной или конфиденциальной информации, которую пользователь может удалить из поиска. В августе 2023 года Google начала по умолчанию размывать откровенно сексуальные изображения. В мае этого года компания запретила рекламодателям продвигать услуги по созданию контента откровенно сексуального характера.

AMD представила Amuse 2.0 — ПО для ИИ-генерации изображений для Ryzen и Radeon

AMD представила Amuse 2.0 — программный инструмент для ИИ-генерации изображений. Программа доступна в бета-версии. В перспективе её функциональность будет расширяться. Amuse 2.0 является своего рода аналогом инструмента AI Playground от Intel, использующего мощности видеокарт Intel Arc. Решение от AMD для генерации контента в свою очередь полагается на мощности процессоров Ryzen и видеокарт Radeon.

 Источник изображений: AMD

Источник изображений: AMD

Приложение Amuse 2.0, разработанное с помощью TensorStack, отличается простотой использования, без необходимости загружать множество внешних компонентов, задействовать командные строки или запускать что-либо ещё. Для использования приложения достаточно лишь запустить исполняемый файл.

По сравнению с Intel AI Playground, Amuse 2.0 не поддерживает запуск чат-ботов на основе больших языковых моделей. В настоящее время приложение предназначено только для генерации изображений с помощью ИИ. Amuse 2.0 использует модели Stable Diffusion и поддерживает процессоры Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и серию видеокарт Radeon RX 7000. Почему компания не добавила поддержку видеокарт Radeon RX 6000 и более ранних моделей, а также процессоров Ryzen 7040 (Phoenix), обладающих практически идентичными характеристиками с Hawk Point, неизвестно. Возможно, это изменится в будущем.

Для работы Amuse 2.0 AMD рекомендует использовать 24 Гбайт ОЗУ или больше для систем на базе процессоров Ryzen AI 300 и 32 Гбайт оперативной памяти для систем на базе Ryzen 8040. Для видеокарт Radeon RX 7000 требования к необходимому объёму памяти не указаны.

Возможности Amuse 2.0:

  • не требуется командная строка;
  • простота и удобство использования;
  • поддержка AMD XDNA Super Resolution;
  • один исполняемый файл;
  • никаких настроек;
  • автоматическая настройка и выбор модели;
  • преобразование рисунка в изображение;
  • создание собственных ИИ фильтров;
  • многоступенчатый конвейер на основе ONNX (Stable Diffusion, Control Nets, Feature Extractors).

Стоит отметить, что инструмент поддерживает XDNA Super Resolution — технологию, позволяющую увеличивать масштаб изображений вдвое. Более подробно об Amuse 2.0 можно узнать по этой ссылке.


window-new
Soft
Hard
Тренды 🔥
ИИ научили генерировать тысячи модификаций вирусов, которые легко обходят антивирусы 12 мин.
В Epic Games Store стартовала новая раздача Control — для тех, кто дважды не успел забрать в 2021 году 23 мин.
За 2024 год в Steam вышло на 30 % больше игр, чем за прошлый — это новый рекорд 2 ч.
«Яндекс» закрыл почти все международные стартапы в сфере ИИ 2 ч.
Создатели Escape from Tarkov приступили к тестированию временного решения проблем с подключением у игроков из России — некоторым уже помогло 3 ч.
Веб-поиск ChatGPT оказался беззащитен перед манипуляциями и обманом 4 ч.
Инвесторы готовы потратить $60 млрд на развитие ИИ в Юго-Восточной Азии, но местным стартапам достанутся крохи от общего пирога 5 ч.
Selectel объявил о спецпредложении на бесплатный перенос IT-инфраструктуры в облачные сервисы 5 ч.
Мошенники придумали, как обманывать нечистых на руку пользователей YouTube 6 ч.
На Открытой конференции ИСП РАН 2024 обсудили безопасность российского ПО и технологий искусственного интеллекта 6 ч.