Опрос
|
реклама
Быстрый переход
Учёные создали очень мощный наногенератор, который станет конкурентом солнечным панелям
23.08.2024 [13:39],
Геннадий Детинич
Как сообщают учёные, вскоре обычная утренняя пробежка позволит надолго заряжать батареи гаджетов. В этом поможет удивительный наногенератор, разработанный сотрудниками Университета Суррея (University of Surrey). Устройство как минимум в 140 раз мощнее всех ранее предложенных решений в этой области, что в перспективе может позволить отказаться от солнечных панелей для зарядки множества вещей и датчиков. Этот наногенератор относится к так называемым трибоэлектрическим генераторам, когда энергия извлекается в процессе движения или трения. Прорыв был совершён в области, которая позволяет регенерировать и усиливать заряд, достигая рекордного уровня плотности генерируемой мощности. Если альтернативные схемы позволяют вырабатывать до 10 мВт энергии, то предложенное британскими учёными решение обещает довести её до 1000 мВт (1 Вт). Это означает, что наногенераторы на основе сбора энергии от движения и вибраций смогут легко питать даже смартфоны, не говоря о микродатчиках и встроенных в тело чипов. Вот он, Святой Грааль для адептов чипирования человечества! Учёные из Университета Суррея разработали схему генерации, которая чем-то похожа на эстафету с передачей палочки следующему бегуну, как поясняют разработчики. «Мечта наногенераторов — улавливать и использовать энергию от повседневных движений, таких как утренняя пробежка, механические вибрации, океанские волны или открывание двери. Ключевым новшеством нашего наногенератора является то, что мы усовершенствовали технологию с помощью 34 крошечных коллекторов энергии с использованием лазерной технологии, которая может быть расширена для производства с целью дальнейшего повышения энергоэффективности», — поясняют изобретатели. «Что действительно интересно, так это то, что наше маленькое устройство с высокой плотностью сбора энергии может в один прекрасный день сравниться по мощности с солнечными батареями и может быть использовано для управления чем угодно — от датчиков с автономным питанием до систем "умного дома", которые работают без необходимости замены батареи», — уверены учёные. Добавим, статья о разработке свободно доступна на сайте журнала Nano Energy. Google открыла всем американским пользователям доступ к генератору изображений Imagen 3
16.08.2024 [17:31],
Павел Котов
Google без громких анонсов открыла всем пользователям из США доступ к последней модели генератора изображений с искусственным интеллектом Imagen 3 на платформе ImageFX. Компания также опубликовала исследовательскую работу, в которой подробно описывается эта технология. Модель Imagen 3 была анонсирована в мае на конференции Google I/O и выпущена в ограниченный доступ для пользователей платформы Vertex AI. «Представляем Imagen 3 — модель скрытой диффузии, которая генерирует высококачественные изображения по текстовым запросам. На момент проведения оценки Imagen 3 является более предпочтительной, чем другие современные модели», — говорится в научной работе. Выпуск Google нового генератора изображений для широкой общественности в США — важный стратегический шаг для компании, вступившей в гонку технологий ИИ. С одной стороны, разработчику удалось повысить качестве её работы, с другой — модель подвергается критике за излишне строгие фильтры контента. Пользователи Reddit, в частности, сообщают, что генератор изображений отклоняет до половины запросов, даже если не предлагать ему «нарисовать» нечто сомнительное — дошло до того, что он отказался создать изображение киборга. Это резко контрастирует с подходом стартапа Илона Маска (Elon Musk) xAI, который на этой неделе выпустил модель Grok-2. Она генерирует изображения практически без ограничений, допуская создание картинок с общественными деятелями и деталями, которые на других платформах считаются недопустимыми. Это тоже вызвало недоумение общественности и породило предположения, что на xAI будет оказываться давление. Перед отраслью ИИ встаёт вопрос о балансе между творчеством и ответственностью, а также возможном влиянии генераторов изображений на публичный дискурс и достоверность информации. Художники одержали важную победу в деле об авторских правах против Stability AI и Midjourney
14.08.2024 [17:11],
Павел Котов
Группа художников, которая объединилась в коллективном иске против разработчиков наиболее популярных моделей искусственного интеллекта для генерации изображений, устроила празднование по случаю того, что судья дал ход этому делу и санкционировал раскрытие информации. Ответчиками по делу выступают создатели сервисов Midjourney, Runway, Stability AI и DeviantArt — по версии истцов, разработчики систем на основе модели Stable Diffusion использовали их защищённые авторским правом работы для обучения ИИ. Судья Северного окружного суда Калифорнии Уильям Оррик (William H. Orrick), курирующий Сан-Франциско, где располагаются многие крупнейшие разработчики систем ИИ, пока не вынес окончательного решения по делу, но счёл, что предъявленных ответчикам обвинений достаточно, чтобы дело перешло к стадии раскрытия информации. Это значит, что представляющие истцов юристы могут изучить документы компаний — разработчиков генераторов изображений с ИИ; огласке будут преданы подробности о массивах обучающих данных, механизмах и внутренней работе систем. Модель Stable Diffusion предположительно обучалась на наборе данных LAION-5B из 5 млрд изображений, который был опубликован в 2022 году. Но, как отмечается в деле, эта база содержала только URL-адреса, то есть ссылки на изображения, а также их текстовые описания, то есть компаниям приходилось самостоятельно собирать эти изображения. Основанные на Stable Diffusion модели используют в работе механизм «CLIP-guided diffusion», помогающий им при генерации изображений отталкиваться от пользовательских запросов, которые могут включать имена художников. Метод CLIP (Contrastive Language-Image Pre-training) разработала и ещё в 2021 году опубликовала компания OpenAI — более чем за год до выпуска ChatGPT. Модель OpenAI CLIP способна работать как база данных по фирменному стилю, и если при обучении схожей с ней модели Midjourney использовались имена художников и их работы с сопоставленными с ними описаниями, то этот факт может представлять собой нарушение авторских прав. Стартап Black Forest Labs представил ИИ-генератор изображений FLUX.1 — он отлично справляется с прорисовкой рук человека
05.08.2024 [18:20],
Владимир Фетисов
В конце прошлой недели стартап Black Forest Labs объявил о начале своей деятельности в сфере разработки генеративных нейросетей. Вместе с этим компания, созданная выходцами из Stability AI, представила семейство моделей генерации изображений по текстовому описанию под названием FLUX.1, которые претендуют на звание лучших в своём классе. Запуск FLUX.1 произошёл примерно через семь недель после того, как в середине июня Stability AI выпустила ИИ-генератор Stable Diffusion 3 Medium, который собрал много критики из-за невысокого качества при создании изображений, на которых есть люди. Пользователи активно делились в соцсетях результатами генерации алгоритма с искажёнными конечностями и телами людей. Запуск Stable Diffusion 3 Medium последовал за уходом из Stability AI трёх ключевых сотрудников — Робина Ромбаха (Robin Rombach), Андреаса Блаттманна (Andreas Blattmann) и Доминика Лоренца (Dominik Lorenz). Именно они вместе с Патриком Эссером (Patrick Esser), который участвовал в разработке первой версии Stable Diffusion и с тех пор работал над разными ИИ-алгоритмами, а также другими инженерами, основали компанию Black Forest Lab. На данный момент стартап представил три модели для генерации по текстовому описанию FLUX.1. ИИ-модель FLUX.1 pro представляет собой наиболее производительный генератор изображений, предназначенный для коммерческого использования через соответствующий API. Вместе с этим были выпущены FLUX.1 dev, доступная для некоммерческого использования, а также более лёгкая и быстрая FLUX.1 schnell (в переводе с немецкого — «быстрый» или «стремительный»). Разработчики утверждают, что их ИИ-модели превосходят существующие аналоги, такие как Midjourney и DALL-E, по целому ряду показателей, включая качество создаваемых изображений и точность следования исходному описанию. В целом результаты генерации FLUX.1 сопоставимы с тем, что можно создать с помощью DALL-E 3 от OpenAI по точности следования описанию, и близки по фотореалистичности к Midjourney 6. При этом алгоритм явно более качественно работает по сравнению со Stable Diffusion XL, последним крупным релизом команды этих разработчиков, когда они ещё были частью Stability AI, не считая Stable Diffusion XL Turbo. Модели Black Forest Lab построены на базе гибридной архитектуры, которая объединяет методы трансформации и диффузии, с масштабированием до 12 млрд параметров. Похоже, что такой подход делает нейросеть FLUX.1 способной качественно генерировать руки человека, что было слабым местом многих уже выпущенных на рынок аналогов. При этом разработчики не уточнили, на каких данных обучались модели FLUX.1. Отметим, что Black Forest Lab уже привлекла финансирование в размере $31 млн. Желающим опробовать FLUX.1 в действии можно воспользоваться сервисами Fal.ai или Replicate.com, где придётся платить деньги для работы с алгоритмами. AMD представила улучшенный генератор кадров Fluid Motion Frames 2 для повышения FPS в любых играх
29.07.2024 [21:27],
Николай Хижняк
AMD анонсировала свою технологию генерации кадров второго поколения — Fluid Motion Frames 2 (AFMF 2). Первая версия технологии была анонсирована и выпущена ещё задолго до выхода комплексной технологии масштабирования изображения FSR 3.0. AMD решила развивать AFMF в качестве независимой функции, которой не требуется поддержка со стороны разработчиков игр. AMD Fluid Motion Frames является частью технологического стека HYPR-RX, входящего в состав драйвера Radeon. Этот набор ПО предназначен для повышения игровой производительности через нажатие всего одной кнопки в настройках драйвера. Геймеры также могут использовать AFMF без HYPR-RX и включать её через игровые настройки, если таковые всё же имеются. По словам AMD, в новой версии технологии генерации кадров Fluid Motion Frames 2 проведена работа по оптимизации, а также добавлено несколько новых ручных настроек. За повышение качества генерируемых игровых кадров отвечают ИИ-алгоритмы. AFMF 2 также обеспечивает более низкую задержку и более высокую производительность по сравнению с предыдущей версией технологии. Компания также отмечает, что у AFMF 2 появилась поддержка игр с Vulkan и OpenGL, которой не было у оригинальной версии технологии. AMD Fluid Motion Frames 2 пока не стала частью официального драйвера Radeon. AMD выпустила AFMF 2 в качестве превью-версии в составе специального драйвера. Последний можно скачать по этой ссылке. Также AFMF 2 поддерживает новые профили настроек с предустановленным качеством изображения или производительности. Например, появился режим Search Mode, который отвечает за плавность генерации кадров. AFMF автоматически отключается в высокодинамичных игровых сценах для обеспечения передачи максимального качества изображения. Автоматическое повторное включение AFMF может вызывать небольшой лаг. Search Mode призван сократить этот лаг. У режима есть три типа настроек: Auto, Standard и High. Последний лучше всего показывает себя при разрешении 1440p и выше. Стандартные настройки лучше всего подходят для разрешения 1080p По словам AMD, AFMF 2 в сочетании с технологией Anti-Lag в игре Cyberpunk 2077 снижает задержку на 28 %. На встроенной графике Radeon 780M процессора Ryzen 7 8700G в игре Counter-Strike 2 с использованием AFMF 2 и Anti-Lag 2 задержка снижается на 12 % эффективнее по сравнению с предыдущей версией технологии. При этом в разрешении 1080p с высокими настройками качества «встройка» обеспечивает более 120 кадров в секунду. Генератор кадров AFMF 2 по-прежнему поддерживает только дискретные видеокарты Radeon RX 7000 и RX 6000, а также встроенную графику процессоров Ryzen 7000 серии и новее. Поддержки старых графических архитектур нет. AMD планирует сделать AFMF 2 частью официального драйвера Radeon в четвёртом квартале этого года. AMD представила Amuse 2.0 — ПО для ИИ-генерации изображений для Ryzen и Radeon
29.07.2024 [00:20],
Николай Хижняк
AMD представила Amuse 2.0 — программный инструмент для ИИ-генерации изображений. Программа доступна в бета-версии. В перспективе её функциональность будет расширяться. Amuse 2.0 является своего рода аналогом инструмента AI Playground от Intel, использующего мощности видеокарт Intel Arc. Решение от AMD для генерации контента в свою очередь полагается на мощности процессоров Ryzen и видеокарт Radeon. Приложение Amuse 2.0, разработанное с помощью TensorStack, отличается простотой использования, без необходимости загружать множество внешних компонентов, задействовать командные строки или запускать что-либо ещё. Для использования приложения достаточно лишь запустить исполняемый файл. По сравнению с Intel AI Playground, Amuse 2.0 не поддерживает запуск чат-ботов на основе больших языковых моделей. В настоящее время приложение предназначено только для генерации изображений с помощью ИИ. Amuse 2.0 использует модели Stable Diffusion и поддерживает процессоры Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и серию видеокарт Radeon RX 7000. Почему компания не добавила поддержку видеокарт Radeon RX 6000 и более ранних моделей, а также процессоров Ryzen 7040 (Phoenix), обладающих практически идентичными характеристиками с Hawk Point, неизвестно. Возможно, это изменится в будущем. Для работы Amuse 2.0 AMD рекомендует использовать 24 Гбайт ОЗУ или больше для систем на базе процессоров Ryzen AI 300 и 32 Гбайт оперативной памяти для систем на базе Ryzen 8040. Для видеокарт Radeon RX 7000 требования к необходимому объёму памяти не указаны. Возможности Amuse 2.0:
Стоит отметить, что инструмент поддерживает XDNA Super Resolution — технологию, позволяющую увеличивать масштаб изображений вдвое. Более подробно об Amuse 2.0 можно узнать по этой ссылке. Microsoft выпустила приложение Designer для создания изображений с помощью ИИ на iOS и Android
17.07.2024 [22:47],
Николай Хижняк
Компания Microsoft сообщила, что её приложение Designer на базе искусственного интеллекта вышло из предварительной версии и теперь доступно всем пользователям операционных систем iOS и Android. Приложение позволяет создавать изображения и дизайны на основе текстовых подсказок. С его помощью можно создавать, например, наклейки, поздравительные открытки, приглашения, коллажи и многое другое. Веб-версия приложения Designer теперь поддерживает более 80 языков мира. Оно также доступно в виде бесплатного мобильного приложения, а также приложения в составе операционной системы Windows. В Designer есть «шаблоны подсказок», призванные помочь пользователям начать творческий процесс. Шаблоны включают стили и описания, которые можно настраивать и делиться с другими. Помимо стикеров, с помощью текстовых подсказок можно создавать смайлы, картинки, обои, монограммы, аватары и многое другое. Кроме того, Designer можно использовать для редактирования стиля изображения с помощью ИИ. Например, в приложение можно загрузить селфи, а затем выбрать один из наборов стилей и добавить на изображение дополнительные детали. Скоро в Designer появится функция «замена фона», которая позволит с помощью текстовых подсказок заменять задний фон на изображениях. Автономное приложение Designer совместимо с Word и PowerPoint через Copilot. Пользователи подписки Copilot Pro могут создавать с помощью Designer изображения прямо в своей рабочей среде. Вскоре компания добавит возможность создавать баннеры для того или иного документа на основе содержимого документов Word. Microsoft также сообщила, что приложение Designer получило более глубокую интеграцию в Microsoft Photos в составе Windows 11. Пользователи смогут использовать ИИ для редактирования фотографий, не выходя из приложения «Фото». У фотографий можно удалять объекты, фон и проводить автоматическую обрезку прямо в приложении. Figma отключила ИИ-помощника дизайнера — он копировал интерфейс приложений Apple
03.07.2024 [11:22],
Павел Котов
Администрация платформы Figma была вынуждена отключить основанный на генеративном искусственном интеллекте инструмент Make Designs — он начал разрабатывать для пользователей проекты, которые выглядели поразительно похожими на приложения из iOS. Генеральный директор Figma Дилан Филд (Dylan Field) подробно рассказал о проблеме на своей странице в соцсети X, возложил на себя вину за то, что торопил своих подчинённых выпустить продукт в общий доступ и выразил уверенность в правильности подхода компании в отношении ИИ. Он также процитировал гендиректора Not Boring Software Энди Аллена (Andy Allen), который наглядно продемонстрировал, как Figma Make Designs практически полностью копирует приложение погоды Apple, и предупредил пользователей платформы, что это чревато юридическими проблемами. «Мы не проводили обучения в рамках функций генеративного ИИ», — заявил ресурсу The Verge технический директор Figma Крис Расмуссен (Kris Rasmussen). Инструмент Make Designs, по его словам, был запущен на готовых моделях ИИ и созданной на заказ системе дизайна; на контенте пользователей или дизайнах готовых приложений обучение также не проводится, добавил Дилан Филд. В основе Make Designs лежат две модели ИИ: OpenAI GPT-4o и Amazon Titan Image Generator G1, рассказал технический директор, из чего можно сделать вывод, что дизайны Apple использовались для обучения ИИ в OpenAI или Amazon. От идеи обучать собственные модели ИИ на контенте пользователей Figma администрация платформы не отказывается, но и торопить события в компании не собираются. На минувшей неделе пользователям представили политику обучения ИИ и дали время до 15 августа решить, согласны ли они предоставлять свои материалы: в тарифных планах Starter и Professional это согласие по умолчанию дано, а в Organization и Enterprise — нет. Make Designs вернётся к пользователям Figma в обозримом будущем. «Мы проведём проверку данной системы дизайна, чтобы убедиться, что она предлагает достаточное разнообразие и отвечает нашим стандартам качества. <..> В этом основная причина проблемы. Но мы примем дополнительные меры предосторожности, прежде чем снова включить [Make Designs], чтобы убедиться, что функция в целом соответствует нашим стандартам качества и ценностям», — пообещал Расмуссен. Он также указал, что Make Designs находится в стадии бета-тестирования. «Бета-версии по определению несовершенны. Но можно сказать с уверенностью, как Дилан написал в своём твите, что мы просто не заметили эту конкретную проблему. А должны были», — заключил технический директор Figma. Представлен ИИ-генератор чрезвычайно реалистичных видео Luma Dream Machine — попробовать можно бесплатно
13.06.2024 [16:24],
Павел Котов
Компания Luma Labs представила модель искусственного интеллекта Dream Machine, предназначенную для создания видео и доступную массовому пользователю. Систему отличает высокий реализм — создаваемые ей видео совсем не похожи на творчество ИИ. Разработчик анонсировал свой проект в соцсети X, опубликовав несколько примеров созданных ИИ видео. «Представляем Dream Machine — видеомодель нового поколения для создания высококачественных реалистичных роликов по текстовым запросам и изображениям с помощью ИИ», — говорится в описании. Проект стал пользоваться высоким спросом, поэтому в ближайшее время опробовать систему в деле будет непросто — запросы большинства пользователей ставятся в очередь, и некоторые бросают забаву, так и не дождавшись результатов. Возможно, когда шумиха вокруг нового проекта поутихнет, работать с системой будет проще. Попробовать создать видео по текстовому описанию или по статическому изображению может любой желающий, достаточно лишь зарегистрировать учётную запись. После этого в Dream Machine можно создать 30 видео в месяц — есть и платные варианты до 2000 видео в месяц за $499, но большинству, вероятно, хватит бесплатной версии сервиса. ИИ-модель действительно отличают реалистичные видео, причём реалистично смотрятся не только объекты на роликах, но и движения камеры — как будто съёмку ведёт профессиональный оператор. Intel представила AI Playground — бесплатный ИИ-генератор изображений, работающий локально
08.06.2024 [16:18],
Владимир Фетисов
На этой неделе состоялась ежегодная выставка Computex 2024, в рамках которой было представлено немало аппаратных и программных новинок. Одной из них стал генератор изображений AI Playground от Intel. Его основной является генеративная нейросеть, а главная особенность заключается в способности работать локально на пользовательском компьютере без подключения к облачным вычислительным мощностям. Приложение AI Playground для устройств с Windows требует наличия производительного процессора Intel Core Ultra, в составе которого есть встроенный ИИ-сопроцессор (NPU) для ускорения выполнения задач искусственного интеллекта. Также требуется наличие встроенной графики Intel Arc или дискретной видеокарты Intel с не менее чем 8 Гбайт видеопамяти. Ещё одна особенность приложения, которое станет доступно для скачивания позднее этим летом, в том, что использовать её можно бесплатно. «Мы не рассматриваем AI Playground как замену многим замечательным проектам и приложениям на основе ИИ, но мы рассматриваем AI Playground как лёгкий способ начать работу с ИИ», — говорится в сообщении Intel. AI Playground устанавливается на компьютер как стандартное приложение Windows. Пользовательский интерфейс выглядит достаточно простым. Для взаимодействия с разными функциями, такими как генерация или редактирование изображения, предлагается переключаться между вкладками в верхней части рабочего пространства. Для создания картинки достаточно ввести текстовое описание и запустить процесс генерации. Поддерживается возможность изменения качества и разрешения изображения, есть дополнительные опции, которые могут оказаться полезными при редактировании. Основой приложения стала большая языковая модель Answer. Хотя возможности AI Playground на данном этапе не слишком впечатляют, недостатки может компенсировать способность приложения работать локально. Это означает, что у разработчиков продукта не будет доступа к созданному пользователями контенту и текстовым подсказкам, которые они задействовали в процессе генерации. Кроме того, приложение можно использовать бесплатно, что также будет привлекательно для пользователей, которые только начинают знакомство с ИИ-генераторами изображений. У Sora появился конкурент из Китая — нейросеть Kling, которая генерирует 1080p-видеоролики по описанию
08.06.2024 [11:36],
Павел Котов
Китайская платформа коротких видео Kuaishou, главный конкурент Douyin — китайского раздела TikTok, — представила основанный на искусственном интеллекте сервис создания видео по текстовому описанию Kling. Этот сервис во многом напоминает OpenAI Sora, свидетельствуя, что крупные китайские технологические компании стремятся догнать американских коллег в области ИИ. Модель ИИ Kling, которая пока находится на стадии тестирования, способна создавать по текстовому описанию видеоролики продолжительностью до 2 минут с разрешением 1080p и поддержкой различных соотношений сторон. В серии демонстрационных видеороликов присутствуют разные сюжеты: китайский мальчик в очках ест чизбургер в заведении быстрого питания; белый кот едет за рулём машины на фоне небоскрёбов и пешеходов; ребёнок едет на велосипеде по саду, наблюдая за сменой времён года. Kuaishou — не единственная китайская компания, отметившаяся разработкой конкурента Sora. В апреле стартап Shengshu Technology совместно с Университетом Цинхуа представила аналогичный ИИ-генератор Vidu. Собственный проект в этом году обещала представить и компания Zhipu AI — один из ведущих китайских стартапов в области генеративного ИИ. Ранее Kuaishou представила большую языковую модель KwaiYii и генератор изображений Kolors. Функция AI Dancer позволяет анимировать фотографии — люди на них танцуют под различные ритмы. В ближайшее время компания также пообещала представить службу преобразования статических изображений в видео — она основана на модели Kling. Посещаемость платформы коротких видео Kuaishou, по её собственным подсчётам, составляет 400 млн человек в день — для сравнения, у Douyin от ByteDance 600 млн пользователей ежедневно. Google так и не решила проблемы с расовой инклюзивностью у генератора изображений Gemini
18.05.2024 [11:33],
Павел Котов
В феврале Google приостановила работу основанного на искусственном интеллекте генератора изображений Gemini, который допускал оскорбляющие общественность исторические неточности. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм — и стереотипно чёрные мужчины по запросу «зулусские воины». Кажется, ничего не изменилось до сих пор. Гендиректору Google Сундару Пичаи (Sundar Pichai) пришлось принести извинения за сбой в работе генератора изображений Gemini, а глава ответственного за проект профильного подразделения Google DeepMind Демис Хассабис (Demis Hassabis) пообещал, что ошибка будет исправлена в «кратчайшие сроки» — за несколько недель. Сейчас уже середина мая, а ошибка до сих пор не исправлена. На этой неделе Google провела ежегодную конференцию I/O, на которой рассказала о множестве новых функций Gemini: модель ИИ сможет использоваться для создания собственных чат-ботов, планировки маршрутов, она будет интегрирована в Google Calendar, Keep и YouTube Music. Но генерация изображений до сих пор отключена в приложении Gemini и веб-интерфейсе, подтвердил ресурсу TechCrunch представитель Google. Причин задержки он не пояснил. По одной из версий, при обучении ИИ используются наборы данных, в которых превалируют изображения белых людей, тогда как представители других рас и этнических групп составляют исключения, что формирует стереотипы. В попытке исправить этот перекос Google могла прибегнуть к кардинальной мере — жёсткому кодированию, при котором данные встраиваются непосредственно в исходный код. Исправить созданный таким образом алгоритм очень непросто. Президент OpenAI опубликовал изображение, созданное GPT-4o — оно очень впечатляет
18.05.2024 [11:20],
Павел Котов
На этой неделе OpenAI представила модель искусственного интеллекта нового поколения GPT-4o. Буква «o» в её названии означает Omni, подразумевая, что она изначально поддерживает несколько форматов ввода — ранее мультимодальность предполагала преобразование всех нетекстовых форматов в текст. Президент и соучредитель OpenAI Грег Брокман (Greg Brockman) впервые опубликовал созданное GPT-4o изображение. Поддержка текста, изображений и звука в качестве входных данных означает, что модель также способна их генерировать. Приведённая выше картинка — не фотография, а творение GPT-4o. На ней изображён мужчина в футболке с логотипом OpenAI, который пишет на доске. Сверху находится частично стёртая надпись «Перенос между модальностями». Далее следует текст: «Положим, мы напрямую моделируем P (текст, пиксели, звук) посредством одного авторегрессионного трансформера. Каковы за и против?». Если присмотреться, можно разглядеть некоторые признаки того, что изображение было создано ИИ. Доска висит под неестественным углом, под ней непонятным образом находится ещё одна, рука мужчины имеет странную форму, а освещение неоднородно. Невероятной, вместе с тем, кажется способность ИИ генерировать длинные фрагменты связного текста — с этим с трудом справляется даже DALL-E 3. Генератор изображений GPT-4o широкой публике пока недоступен: пользователи ChatGPT с подключённой моделью нового поколения пока могут генерировать изображения лишь с DALL-E 3. Но президент OpenAI Грег Брокман уверяет, что компания прилагает значительные усилия, чтобы открыть к модели нового поколения полный доступ. Google анонсировала свой самый мощный ИИ-генератор изображений Imagen 3
14.05.2024 [22:03],
Владимир Фетисов
В рамках проходящей в эти дни в Маунтин-Вью конференции Google I/O состоялся анонс новой версии генеративной нейросети семейства Imagen. Речь идёт об алгоритме Imagen 3 — самом продвинутом генераторе изображений от Google на данный момент. Глава исследовательского ИИ-подразделения Google Deep Mind Демис Хассабис (Demis Hassabis) во время презентации заявил, что Imagen 3 более точно понимает тестовые запросы, на основе которых он создаёт изображения, чем модель Imagen 2. Он отметил, что алгоритм работает более «креативно и детализировано», а также реже ошибается и создаёт меньше «отвлекающих артефактов». Вместе с этим Google попыталась развеять опасения по поводу того, что Imagen 3 будет использоваться для создания дипфейков. В процессе генерации изображений будет задействована технология SynthID, посредством которой на медиафайлы наносятся невидимые криптографические водяные знаки. Предполагается, что такой подход сделает бесполезными попытки использовать ИИ-генератор Google для создания фейкового контента. Частные пользователи могут оформить подписку на Imagen 3 через сервис Google ImageFX. Разработчики и корпоративные клиенты получат доступ к ИИ-генератору через платформу машинного обучения Vertex AI. Как и в прошлом, в этот раз Google не поделилась подробностями касательно того, какие данные использовались для обучения нового алгоритма. 64 пикселя за 20 минут: на 40-летнем компьютере Commodore 64 запустили ИИ-генератор изображений
10.05.2024 [17:58],
Павел Котов
В августе 1982 года вышел компьютер Commodore 64, которому было суждено стать одним из самых продаваемых ПК всех времён. Как оказалось, оборудование той эпохи и может справляться и с современными алгоритмами искусственного интеллекта — конечно, с некоторыми оговорками. Энтузиаст Ник Бильд (Nick Bild) разработал для Commodore 64 систему генеративного ИИ, способную создавать изображения размером 8 × 8 пикселей, которые затем преобразуются в картинки 64 × 64 точки. Эти изображения призваны служить источником вдохновения при разработке концепций игрового дизайна. Как оказалось, современную модель генеративного ИИ действительно можно запускать на таком старом оборудовании. На выполнение 94 итерации для построения окончательного изображения у Commodore 64 ушли 20 минут — и это, пожалуй, совсем неплохо, учитывая возраст компьютера. О проектах уровня OpenAI речи, конечно, не идёт, но и «вероятностный алгоритм PCA», запущенный на 40-летней машине, в реальности был обучен на современном компьютере. Таким образом, хотя модель и по-честному работала на Commodore 64, для её запуска всё равно оказался необходим современный ПК. |