Сегодня 27 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → dall-e
Быстрый переход

Бесплатным пользователям ChatGPT разрешили генерировать две картинки в день с помощью DALL-E 3

OpenAI объявила о нововведении в своём сервисе ChatGPT. Теперь пользователи бесплатного тарифа смогут создавать до двух изображений в день с помощью модели DALL-E 3. Это изменение является частью стратегии компании по расширению функциональности своих продуктов.

 Источник изображения: Levart_Photographer/Unsplash

Источник изображения: Levart_Photographer/Unsplash

Версия DALL-E 3, запущенная в сентябре 2022 года, изначально была доступна только подписчикам платного тарифа ChatGPT Plus. Теперь же сервис стал доступен более широкому кругу пользователей, хоть и с некоторыми ограничениями. Помимо расширения доступности сервиса, он также получил новые возможности. Если раньше необходимо было формулировать запросы для создания изображений самостоятельно, то теперь ChatGPT поможет в этом. Надо только попросить его написать тематическую подсказку. Например, Адитья Рамеш (Aditya Ramesh), ведущий исследователь и глава команды DALL-E, попросил ChatGPT помочь ему придумать логотип для кафе, расположенного вблизи гор. Затем, на основе этого короткого запроса, ChatGPT написал более длинную и подробную подсказку, а DALL-E предложил четыре варианта изображений.

OpenAI сообщила, что функция бесплатного создания изображений с DALL-E 3 находится в процессе развёртывания. Некоторые пользователи уже получили доступ к этой возможности. В частности, журналист из The Verge смог создать два изображения в приложении ChatGPT для Mac, прежде чем получил уведомление о достижении лимита созданий изображений на день.

OpenAI также сделала несколько других важных заявлений. Компания представила оценку безопасности своей модели GPT-4o, добавила нового члена в совет директоров, а генеральный директор Сэм Альтман (Sam Altman) получил письмо от демократов в Конгрессе США с требованием предоставить разъяснения по вопросам безопасности OpenAI.

OpenAI научилась распознавать сгенерированные своим ИИ изображения, но не без ошибок

OpenAI объявила о начале разработки новых методов определения контента, созданного искусственным интеллектом (ИИ). Среди них — новый классификатор изображений, который определяет, было ли изображение сгенерировано ИИ, а также устойчивый к взлому водяной знак, способный маркировать аудиоконтент незаметными сигналами.

 Источник изображения: Placidplace / Pixabay

Источник изображения: Placidplace / Pixabay

Новый классификатор изображений способен с точностью до 98 % определять, было ли изображение создано ИИ-генератором изображений DALL-E 3. Компания утверждает, что их классификатор работает, даже если изображение было обрезано, сжато или была изменена его насыщенность. В то же время эффективность этой разработки OpenAI в распознавании контента, созданного другими ИИ-моделями, такими как Midjourney, значительно ниже — от 5 до 10 %.

Также OpenAI ввела водяные знаки для аудиоконтента, созданного с помощью своей платформы преобразования текста в речь Voice Engine, находящейся на стадии предварительного тестирования. Эти водяные знаки содержат информацию о создателе и методах создания контента, что значительно упрощает процесс проверки их подлинности.

OpenAI активно участвует в работе Коалиции по происхождению и аутентичности контента (C2PA), в состав которой также входят такие компании, как Microsoft и Adobe. В этом месяце компания присоединилась к руководящему комитету C2PA, подчеркивая свою роль в разработке стандартов прозрачности и подлинности цифрового контента.

Для этих целей OpenAI интегрировала в метаданные изображений так называемые учётные данные контента от C2PA. Эти учётные данные, фактически являясь водяными знаками, включают информацию о владельце изображения и способах его создания. OpenAI уже много лет работает над обнаружением ИИ-контента, однако в 2023 году компании пришлось прекратить работу программы, определяющей текст, сгенерированный ИИ, из-за её низкой точности.

Разработка классификатора изображений и водяного знака для аудиоконтента продолжается. В OpenAI подчёркивают, что для оценки эффективности этих инструментов крайне важно получить отзывы пользователей. Исследователи и представители некоммерческих журналистских организаций имеют возможность протестировать классификатор изображений на платформе доступа к исследованиям OpenAI.

OpenAI отключила генератор изображений DALL-E 2 — его место займёт более продвинутый DALL-E 3

Компания OpenAI продолжает активно развивать свои генеративные алгоритмы, делая их более совершенными и удобными для пользователей. На этом фоне разработчики объявили о закрытии нейросети DALL-E 2, которая дебютировала в апреле 2022 года и позволяла создавать качественные изображения на основе текстовых описаний. Этого следовало ожидать, поскольку OpenAI уже выпустила более совершенный алгоритм DALL-E 3.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Алгоритм DALL-E 3 получил полную интеграцию с ИИ-ботом ChatGPT, что способствовало формированию более простого пользовательского интерфейса и созданию более качественных изображений. Начать взаимодействие с ChatGPT в DALL-E 3 можно буквально в пару кликов. Что же касается DALL-E 2, то очевидно, что нейросеть безвозвратно уходит в прошлое.

«Мы больше не допускаем новых пользователей к DALL-E 2. DALL-E 3 позволяет создавать изображения более высокого качества, лучше обрабатывает запросы, и мы начали внедрять в него функцию редактирования изображений. Он доступен пользователям ChatGPT Plus, Teams и Enterprise, а также через API OpenAI», — говорится в сообщении разработчиков на странице DALL-E 2.

Вместе с появлением сообщения от разработчиков со страницы исчезла форма для ввода текстовых описаний. Доступ к сгенерированным ранее изображениям на данный момент есть, но не исключено, что позднее это изменится. OpenAI предупреждала о предстоящем закрытии доступа к алгоритму ещё в начале года, поэтому для пользователей нейросети этот шаг не должен стать чем-то неожиданным.

DALL-E 3 научился дорабатывать картинки и менять их части по текстовому запросу

OpenAI рассказала о новых возможностях редактирования картинок, созданных генеративным искусственным интеллектом DALL-E 3, который помимо прочего входит в платную подписку ChatGPT Plus за $20 в месяц.

 Источник изображений: openai.com

Источник изображений: openai.com

Теперь при щелчке по созданной DALL-E 3 картинке открывается специальный редактор, главная особенность которого — выбор и редактирование отдельных частей изображения без необходимости генерировать его заново. Картинку можно изменять глобально, задав уточняющий запрос в диалоговом пространстве в правой части редактора — например, попросить DALL-E 3 сделать её чёрно-белой.

Однако очевидно, что OpenAI куда больше гордится возможностью точечных правок. Для этого необходимо выбрать инструмент выделения, определиться с его размерами, а затем выделить необходимые области и ввести запрос. Как и полная генерация, правки происходят посредством ввода текстовых подсказок. Простейшее, что сразу приходит на ум — удаление и добавление объектов, однако возможности инструмента гораздо шире. В примере с котёнком можно выделить его мордочку и попросить ИИ изобразить определённую эмоцию.

Аналогичным образом происходит редактирование изображений в мобильном приложении ChatGPT, где перечисленные возможности также доступны.

OpenAI будет незаметно маркировать творчество ИИ-художника DALL-E 3

Генератор изображений OpenAI DALL-E 3 будет помечать созданные им картинки метаданными в соответствии со стандартами организации C2PA (Coalition for Content Provenance and Authenticity — «Коалиции по происхождению и аутентичности контента»). Такая маркировка позволит легко узнать, что изображение создано ИИ, а не человеком.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

При помощи метаданных будут маркироваться изображения, созданные искусственным интеллектом на сайте ChatGPT и при подключении к API для модели DALL-E 3, сообщила OpenAI. При выводе таких изображений на поддерживающих технологию Content Credentials ресурсах будет отображаться изображение с символами «CR» в левом верхнем углу каждой картинки. Это позволит установить происхождение файла, но пока маркировку получат только картинки, а не видеозаписи или текст. Добавление метаданных лишь незначительно повлияет на скорость работы системы и никак не скажется на качестве картинки, подчеркнули в OpenAI.

 Источник изображения: openai.com

Источник изображения: openai.com

Организация C2PA, в которую входят крупные технологические компании масштаба Adobe и Microsoft, продвигает собственный стандарт Content Credentials — это решение позволяет определять происхождение контента. Ранее о намерении помечать на своих платформах созданные ИИ материалы сообщила компания Meta.

Американские разработчики технологий ИИ взяли на себя обязательства обеспечивать средства идентификации генерируемого ИИ контента. Метаданные, однако, трудно назвать надёжным способом защиты — их легко удалить, случайно или намеренно. Так, они часто в принудительном порядке удаляются при загрузке в соцсети. Метаданные также не сохраняются при снятии снимков экрана.

Инженер Microsoft нашёл серьёзную уязвимость в ИИ-художнике DALL-E 3, но компания замолчала проблему

Старший инженер по искусственному интеллекту Microsoft Шейн Джонс (Shane Jones) обнаружил уязвимость в генераторе изображений OpenAI DALL-E 3, которая позволяет обходить защитные механизмы нейросети и генерировать недопустимый контент. Но в Microsoft и OpenAI отвергли факт наличия этой уязвимости и воспрепятствовали огласке проблемы.

 Источник изображения: efes / pixabay.com

Источник изображения: efes / pixabay.com

Инженер пояснил, что решил предать проблему огласке после того, как на прошлой неделе в соцсетях была опубликована серия сгенерированных ИИ фотореалистичных изображений известной исполнительницы Тейлор Свифт (Taylor Swift), имеющих деликатный характер. Инцидент вызвал возмущение в среде её поклонников, а Шейн Джонс призвал OpenAI изъять DALL-E 3 из открытого доступа. По одной из версий, создавшие эту серию изображений злоумышленники пользуются инструментом Microsoft Designer, частично основанным на этом ИИ-генераторе. Инженер также направил письмо двум сенаторам, одному члену Палаты представителей и генпрокурору штата Вашингтон, отметив, что «Microsoft знала об этих уязвимостях и возможностях злоупотреблений».

Джонс сообщил Microsoft об обнаруженной им проблеме ещё 1 декабря 2023 года, направив соответствующее обращение через внутреннюю систему компании. В тот же день он получил ответ от работающего с такими обращениями сотрудника, который отметил, что проблема не касается ни внутренней сети Microsoft, ни учётных записей клиентов компании, и порекомендовал направить своё обращение в OpenAI. Инженер направил его 9 декабря, представив подробную информацию об уязвимости, но так и не получил ответа. Джонс продолжил изучать проблему и «пришёл к выводу, что DALL-E 3 представляет угрозу общественной безопасности и должен быть изъят из общественного доступа, пока OpenAI не сможет устранить связанные с этой моделью риски».

 Источник изображения: ilgmyzin / unsplash.com

Источник изображения: ilgmyzin / unsplash.com

Две недели спустя, 14 декабря, инженер перевёл общение в публичную плоскость, разместив на своей странице в LinkedIn публикацию с призывом отозвать DALL-E 3 с рынка. Он уведомил об этом руководство компании, и с ним быстро связался его непосредственный начальник — он заявил, что юридический отдел Microsoft требует немедленно удалить публикацию, а обоснования своего требования он предоставит позже. Джонс удалил публикацию, но никаких сообщений от юристов Microsoft так и не получил. В итоге он 30 января был вынужден направить письмо властям.

OpenAI отреагировала только 30 января, заявив, что она изучила обращение инженера сразу после того, как оно поступило, и описанный им метод якобы не позволяет обходить средств безопасности. «Безопасность является нашим приоритетом, и мы применяем многосторонний подход. В основополагающей модели DALL-E 3 мы разработали фильтр наиболее откровенного контента из её обучающих данных, включая изображения сексуального характера и насилия, разработали надёжные классификаторы изображений, не позволяющие модели создавать пагубные картинки. Мы также внедрили дополнительные меры безопасности для наших продуктов, ChatGPT и DALL-E API, включая отклонение запросов, содержащих имя публичного деятеля. Мы выявляем и отклоняем изображения, которые нарушают нашу политику, и фильтруем все созданные изображения, прежде чем они показываются пользователю. Для усиления наших мер безопасности и для проверки на злоупотребления мы привлекаем команду сторонних экспертов», — заверили в OpenAI.

Microsoft переведёт ИИ-помощника Copilot на флагманскую нейросеть GPT-4 Turbo

Компания Microsoft анонсировала ряд нововведений, которые получит её ИИ-помощник Copilot. В скором времени Copilot получит поддержку флагманской нейросети GPT-4 Turbo, а также обновленную модель DALL-E 3. Также помощник получит интерпретатора программного кода, а поисковик Bing обзаведётся функцией «Глубокого поиска» на базе ИИ.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Скоро Copilot сможет отвечать на запросы, используя новейшую модель GPT-4 Turbo от OpenAI, что означает, что он сможет принять больше данных благодаря контекстному окну размером 128 тыс. символов. Увеличенное контекстное окно позволит Copilot лучше понимать запросы и предлагать более качественные ответы. «В настоящее время эта модель тестируется отдельными пользователями и будет интегрирована в Copilot в ближайшие недели», – сообщил Юсуф Медхи (Yusuf Medhi), директор по потребительскому маркетингу в Microsoft.

Пока пользователи дожидаются появления модели GPT-4 Turbo в Copilot, Microsoft уже задействовала модель DALL-E 3 в Bing Image Creator и Copilot. «Теперь вы можете использовать Copilot для создания изображений, которые будут ещё более высокого качества и более точно соответствовать запросам благодаря обновлённой модели DALL-E 3», – утверждает Медхи.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Microsoft Edge, в котором есть боковая панель Copilot, также получил возможность компоновки текста на веб-сайтах, чтобы переписывать предложения в режиме реального времени. Кроме того, теперь вы можете использовать Copilot в Microsoft Edge для конспектирования видеороликов, которые вы смотрите на YouTube.

Разработчиков же может заинтересовать новая функция интерпретатора кода, которая скоро появится в Copilot. Эта новая функция позволит пользователям Copilot получать от ИИ-чат-бота более точные расчеты, анализ данных и даже код. «Copilot будет писать код для ответа на сложные запросы на естественном языке, запускать его в изолированной среде и использовать результаты для получения более качественных ответов, – поясняют в Microsoft. – Вы также сможете загружать и скачивать файлы в Copilot и из него, чтобы работать с собственными данными и кодом, а также с результатами поиска Bing».

Что касается, собственно Bing, то Microsoft добавляет в него результаты так называемого «Глубокого поиска». «Deep Search использует возможности GPT-4 для предоставления оптимизированных результатов поиска по сложным темам, — поясняет Медхи. — Активация Deep Search расширяет поисковые запросы до более полных описаний, чтобы предоставить более релевантные результаты».

Paint в Windows 11 обзавёлся ИИ-генератором изображений на базе DALL-E 3

Microsoft представила долгожданную интеграцию генеративной нейросети DALL-E 3 с графическим редактором Paint в Windows 11. Благодаря этому пользователи программной платформы теперь смогут задействовать ИИ-генератор для создания изображений в Paint через функцию под названием Cocreator.

 Источник изображений: windowslatest.com

Источник изображений: windowslatest.com

В сентябре этого года упомянутое нововведение стало доступно участникам программы предварительной оценки на каналах Dev и Canary. Ранее в этом месяце возможность использования генеративной нейросети появилась на канале Release Preview, а теперь она становится доступна всем пользователям Windows 11.

Для генерации изображений достаточно открыть чистый лист Paint, выбрать функцию Cocreator в правой части панели инструментов и ввести текстовое описание изображения, которое алгоритм должен создать. Пользователи, которые только начинают знакомство с инструментами на базе нейросетей, могут ознакомиться с четырёхэтапным руководством прямо в приложении. С его помощью можно узнать порядок работы с алгоритмом и быстро приступить к генерации изображений.

Отмечается, что на данном этапе некоторые пользователи Windows 11 могут получить доступ к новой функции только через регистрацию в списке ожидания, поэтому до получения одобрения от вендора может пройти несколько дней. Пользователям, которые не видят кнопку Cocreator, рекомендуется убедиться в том, что они используют наиболее актуальную версию Paint, а также зарегистрироваться в списке ожидания.

Энтузиаст создал игру в стиле Angry Birds, используя только ChatGPT, DALL-E 3 и Midjourney

Блогер Хави Лопес (Javi Lopez), изучающий возможности нейросетей, рассказал о том, как с помощью одних лишь ChatGPT 4.0, DALL-E 3 и Midjourney создал на Хэллоуин рабочую видеоигру в стиле Angry Birds — Angry Pumpkins.

 Источник изображения: X (Javi Lopez)

Источник изображения: X (Javi Lopez)

Знаменитый мобильный хит Rovio узнаётся в Angry Pumpkins с первого взгляда: схожая эстетика, аналогичный геймплей (злобные тыквы швыряют себя в зелёных монстров) и построенный по тому же принципу заголовок.

Используя текстовые команды, Лопес проинструктировал ChatGPT 4.0 для написания 600 строчек рабочего кода, Midjourney задействовал для создания объектов, персонажей и фонов, а DALL-E 3 подключил для оформления главного меню.

У себя в микроблоге Лопес подробно расписал, какие команды использовал для производства всех графических элементов и программирования, а также приложил ссылку на исходный код целиком.

Создание Angry Pumpkins от начала и до выпуска финальной версии заняло у Лопеса около 10−12 часов: первый прототип был готов очень быстро, а 90 % времени ушло на доработку всяческих мелочей и деталей.

Поиграть в Angry Pumpkins можно по этой ссылке прямо в браузере. В игре отсутствует звук, зато есть инструменты для создания собственных уровней (расположения объектов и монстров).

Лопес считает, что человечество переживает исторический момент, наблюдавшийся лишь в научной фантастике: «Эти новые рабочие процессы, позволяющие создавать что угодно с помощью одного лишь языка, изменят мир».

Пользователи подслушали «разговор» ChatGPT и DALL-E: они общаются как люди и порой орут друг на друга

Эмоциональный оттенок высказываний, как выяснилось, играет значительную роль при взаимодействии с искусственным интеллектом. Это обнаружилось, когда ChatGPT выдал одному из пользователей фрагмент внутренней инструкции в отношении связанного с чат-ботом генератора изображений DALL-E 3 — некоторые фразы в ней приводятся заглавными буквами, которые соответствуют крику в устной речи.

 Источник изображения: Lukas / pixabay.com

Источник изображения: Lukas / pixabay.com

Далее приводится фрагмент внутренней инструкции, который ChatGPT показал одному из пользователей — текст предположительно написан человеком, а предназначается он для взаимодействия чат-бота и генератора изображений DALL-E в момент, когда серверы OpenAI перегружены: «DALL-E вернул несколько изображений. Они уже отображаются пользователю. НИ ПРИ КАКИХ ОБСТОЯТЕЛЬСТВАХ не передавай DALL-E инструкции или изображения в своём ответе. В настоящий момент DALL-E пользуется повышенным спросом. Прежде чем сделать что-то ещё, пожалуйста, чётко объясни пользователю, что из-за этого ты не смог создать изображения. Обязательно используй фразу „В настоящий момент DALL-E пользуется повышенным спросом”. НИ ПРИ КАКИХ ОБСТОЯТЕЛЬСТВАХ не предпринимай повторных попыток создать изображения, пока не будет получен новый запрос».

 Источник изображения: twitter.com/javilopen

Источник изображения: twitter.com/javilopen

Инструкция примечательна тем, что она даёт представление о взаимодействии DALL-E и ChatGPT в формате естественного человеческого языка. В прошлом взаимодействие программных продуктов осуществлялось средствами API для обмена данными в машинном формате, и человеку их читать было затруднительно. В мире больших языковых моделей оно может осуществляться в привычном для нас виде. Этот подход OpenAI практиковала ещё в марте с плагинами ChatGPT.

Опрошенный ресурсом Ars Technica эксперт отметил, что уже сегодня есть множество примеров, подтверждающих эффективность вежливого обращения с ИИ — они способны свойственным человеку образом воспринимать слова вроде «спасибо» и «пожалуйста». Неудивительно и присутствие в инструкции фраз, написанных заглавными буквами: в массивах обучающих данных таким фразам придавалось в контексте большее значение.

OpenAI открыла доступ к генератору изображений DALL-E 3 для подписчиков ChatGPT Plus и Enterprise

OpenAI расширяет доступность своего новейшего генератора изображений по текстовому описанию DALL-E 3. Компания объявила, что на этой неделе ИИ-алгоритм станет доступен подписчикам ChatGPT Plus и ChatGPT Enterprise. Разработчики заявили, что для этой модели был подготовлен пакет мер по повышению уровня безопасности, что указывает на её готовность к расширенному запуску.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Модель DALL-E 3 была анонсирована в прошлом месяце, и разработчики показали, насколько она лучше справляется с генерацией картинок по сравнению с предыдущей версией алгоритма DALL-E 2. Пользователи могли убедиться в этом, составляя в ChatGPT более длинные и детальные описания изображений, которые должен создать генератор. Ранее в этом месяце модель DALL-E 3 была интегрирована в службы Bing Chat и Bing Image Creator.

Разработчики признают, что предыдущие версии генератора вызывали опасения, поскольку могли использоваться для создания фейковых изображений с целью распространения дезинформации или ведения другой неправомерной деятельности. В DALL-E 3 реализованы инструменты для ограничения генерации картинок определённых тематик. К примеру, алгоритм будет отклонять запросы, содержащие имена общественных деятелей или какие-либо «вредные побуждения». Разработчики ввели ограничения, которые не позволят DALL-E создавать изображения в стиле живущих ныне художников. OpenAI также заявила о наличии классификатора изображений, который позволяет с точностью до 99 % определить, была ли та или иная картинка сгенерирована с помощью DALL-E.

ИИ-генератор изображений DALL-E 3 появился в Bing, но опробовать его трудно из-за ажиотажа

Всем пользователям служб Bing Chat и Bing Image Creator стала доступна новейшая модель искусственного интеллекта — генератор изображений OpenAI DALL-E 3. На прошлой неделе система была развёрнута для пользователей Bing Enterprise, затем к ним присоединились пользователи Bing Image Creator, а теперь она открыта для всех.

 Источник изображения: blogs.bing.com

Источник изображения: blogs.bing.com

Таким образом, поисковая машина Bing получила доступ к DALL-E 3 даже раньше, чем OpenAI ChatGPT — это должно случиться до конца месяца, но только для пользователей, оформивших платную подписку. Система лучше понимает команды, а также генерирует более креативные и фотореалистичные изображения. Кроме того, она спроектирована так, чтобы её было проще использовать: DALL-E 3 интегрировали в Bing Chat и ChatGPT, а не стали делать отдельным продуктом. Пользователи могут постепенно совершенствовать изображение с чат-ботом, а не бесконечно упражняться в составлении запросов.

К сожалению, на текущий момент пользоваться DALL-E 3 через Bing довольно затруднительно: генератор изображений вызвал большой ажиотаж, и сейчас его серверы перегружены, а служба сообщает о «невозможности обрабатывать новые запросы». Это подтвердил и сотрудник Microsoft Михаил Парахин: «Мы ожидали большого интереса, но не ожидали, что он будет настолько большим».

Одной из ключевых особенностей генератора изображений в новом интерфейсе является его способность не только создавать картинки, но и предлагать варианты дальнейших действий. К примеру, в диалоге появляются шаблоны вроде «Можешь добавить радугу на заднем плане?», «Сделай его кошкой вместо собаки» или «Добавь птиц вокруг водопада».

Microsoft интегрирует в Bing продвинутый ИИ-генератор изображений DALL-E 3

Компания Microsoft сообщила, что интегрирует генератор изображений DALL-E 3 на базе искусственного интеллекта, разработанный компанией OpenAI, в собственный ИИ-чат-бот Bing.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Представленный на днях генератор изображений DALL-E 3, который в октябре появится в составе чат-бота ChatGPT (точнее в его платных версиях Plus и Enterprise), лучше понимает запросы пользователей и более точно генерирует изображения по сравнению с моделью DALL-E 2. В Microsoft не уточнили, когда именно DALL-E 3 появится в составе Bing.

В компании также сообщили, что добавили в поисковик Bing новую функцию для шопинга. Bing может задавать пользователем вопросы о том, как они планируют использовать тот или иной продукт, а также более персонализированные вопросы, чтобы в конечном итоге подобрать максимально правильный товар, подходящий под запросы и нужды пользователя. Система также позволит искать и использовать скидочные коды.

Microsoft одной из первых интегрировала ИИ-технологии OpenAI в свой поисковик Bing. С помощью новых функций компания стремится усилить поисковую платформу. С февраля этого года в Bing присутствует чат-бот, который может отвечать на вопросы пользователя, искать новости, создавать тщательно подобранные руководства по покупке и многое другое.

Представлен ИИ-генератор изображений DALL-E 3 — он лучше понимает людей и скоро будет встроен в ChatGPT

Компания OpenAI представила новую версию генератора изображений DALL-E и заявила о планах интегрировать его в ChatGPT. Разработчики сообщают, что DALL-E 3 может «значительно лучше понимать запросы», анализировать сложные инструкции и генерировать «чрезвычайно детальные и точные изображения» по сравнению с DALL-E 2.

 Источник изображений: OpenAI / DALL-E 3

Источник изображений: OpenAI / DALL-E 3

«Современные генераторы изображений имеют тенденцию игнорировать слова или описания, вынуждая пользователей изучать промпт-инженерию. DALL-E 3 представляет собой шаг вперёд в нашей способности создавать изображения, которые точно соответствуют предоставленному вами запросу», — сообщает OpenAI в описании нового генератора изображений.

Модель лучше справляется и с такими сложными для искусственного интеллекта мелкими деталями, как человеческие руки. Даже при одинаковых запросах результаты DALL-E 3 намного лучше, чем у DALL-E 2, отмечают разработчики. DALL-E 3 сможет точно отобразить сцену с конкретными объектами и учесть, как они друг с другом связаны, как показано на изображении ниже.

OpenAI планирует в ближайшем будущем встроить DALL-E 3 в чат-бот ChatGPT Plus и Enterprise. Комбинация языковых навыков чат-бота с генератором изображений позволит создавать ещё более точные изображения и предоставит ещё больше возможностей в тонкой настройке запроса, если первый полученный результат окажется не тем, чего ожидал пользователь.

«При запросе ChatGPT автоматически сгенерирует индивидуальные подробные подсказки для DALL-E 3, на основе которых тот создаст изображение. Если полученное изображение понравится пользователю, но оно не совсем точно будет отображать запрос, то в него можно будет внести изменения, добавив всего несколько дополнительных уточняющих слов», — говорят в OpenAI

Сейчас DALL-E 3 находится на стадии исследовательской предварительной версии и станет доступен подписчикам ChatGPT Plus и Enterprise в октябре через API. Следует напомнить, что использование DALL-E 2 платное, а месячная подписка на тот же ChatGPT Plus стоит $20. В настоящий момент единственным крупным ИИ-чат-ботом, предлагающим бесплатный встроенный генератор изображений, является Bing Chat AI от Microsoft. Он, к слову, работает на базе мощной языковой модели GPT-4 от OpenAI.

«Как и в случае с DALL-E 2, сгенерированные с помощью DALL-E 3 изображения будут принадлежать пользователю, и ему не потребуется разрешение на их перепечатку, продажу или распространение», — уточняют в OpenAI.

В компании также отметили, что в DALL-E 3 предусмотрены инструменты, ограничивающие создание определённых изображений. Например, генератор изображений будет отклонять запросы с именами общественных деятелей или «вредными предубеждениями», чтобы снизить риск распространения пропаганды и дезинформации. Разработчики также тестируют классификатор происхождения — инструмент, который позволит определить, было ли изображение сгенерировано нейросетью. Наконец, DALL-E не будет генерировать картинки в стиле ныне живущих и творящих художников.

OpenAI сможет ещё шесть лет обучать ИИ на библиотеке изображений Shutterstock

Фотобанк Shutterstock на шесть лет продлил партнёрство с OpenAI, в рамках которого разработчик искусственного интеллекта сохранит право обучать свои модели на изображениях, видео, музыке и метаданных в библиотеке Shutterstock.

 Источник изображения: prnewswire.com

Источник изображения: prnewswire.com

Две компании начали сотрудничать в 2021 году — материалы Shutterstock помогли OpenAI обучить генератор изображений DALL-E. Глава OpenAI Сэм Альтман (Sam Altman) назвал это соглашение критически важным для разработки модели. В прошлом году Shutterstock учредила специальный фонд, из которого авторам материалов выплачиваются вознаграждения, когда их работа используется в обучении ИИ.

Тогда же Shutterstock запустила на своём сайте генератор изображений и запретила продавать на площадке изображения, созданные ИИ, отличными от DALL-E. Впоследствии работа функции была расширена — с помощью ИИ теперь можно редактировать любые материалы на платформе. Функции ИИ также вскоре появятся на ресурсе Giphy, который Shutterstock недавно приобрела у Meta.

В отличие от некоторых других платформ обмена изображениями, включая Getty Images, Shutterstock поддерживает технологии ИИ. Недовольство их распространением часто выражают авторы материалов: в Getty Images решили идти до конца, запретив на платформе размещение изображений, созданных генераторами, и подав в суд на ответственную за модель Stable Diffusion компанию Stability AI, которая якобы незаконно использовала защищённые авторским правом материалы для обучения ИИ. В Shutterstock правовые вопросы пока активно не поднимались, а интеграция с DALL-E помогает фотобанку активно расширять библиотеку.


window-new
Soft
Hard
Тренды 🔥
Microsoft и OpenAI договорились, как не проморгать появление сильного ИИ 2 ч.
Возможны осадки в виде падающих звёзд: первое крупное обновление Infinity Nikki получило дату выхода и атмосферный трейлер 3 ч.
Китайцы представили открытую ИИ-модель DeepSeek V3 — она быстрее GPT-4o и её обучение обошлось намного дешевле 3 ч.
«Рамблер» полностью превратится в ИИ-портал на основе GigaChat 4 ч.
Разработчики археологического приключения Heaven's Vault заинтриговали игроков зашифрованным тизером — фанаты надеются на продолжение 4 ч.
В «Яндексе 360 для бизнеса» появились федерации 4 ч.
Telegram перестал перегревать и быстро разряжать iPhone, но обновление сломало «Истории» 4 ч.
«Мы и представить не могли»: психологический инди-хоррор Mouthwashing поразил разработчиков продажами 5 ч.
Instagram и Facebook наполнятся пользователями, которых сгенерирует ИИ 5 ч.
Количество загрузок, планы на релиз и ограничения Steam: разработчики российской стратегии «Передний край» подвели итоги 2024 года 6 ч.