Сегодня 26 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → deepmind
Быстрый переход

Google DeepMind представила ИИ-генератор видео Veo 2, который создаёт двухминутные ролики в 4K

Подразделение Google DeepMind представило Veo 2 — основанный на искусственном интеллекте генератор видео нового поколения. Он создаёт видеоролики в разрешении 4K (4096 × 2160 пикселей) продолжительностью до двух минут. Таким образом, он в 4 раза превосходит OpenAI Sora по разрешению и в 6 раз — по продолжительности видео.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

На данный момент это преимущество, однако, носит лишь теоретический характер: испробовать Veo 2 можно лишь на экспериментальной площадке VideoFX, где разрешение ограничено 720p, а длина видео — 8 секундами. Для сравнения, доступная для пользователей версия генератора OpenAI Sora предлагает 1080p и 20 секунд. Чтобы начать работу с VideoFX, придётся записаться в список ожидания, хотя Google пообещала на этой неделе расширить аудиторию. В перспективе Veo 2 появится на платформе для бизнес-пользователей Vertex AI, но точные сроки в Google не указали.

Veo 2, как и её предшественница, генерирует видео по текстовым подсказкам, которые можно сопровождать изображениями. По сравнению с Veo первого поколения, новая модель лучше «понимает» физику, изображение отличается повышенной чёткостью, усовершенствованы механизмы движения виртуальной камеры. Veo 2 более реалистично моделирует движение (например, изображает наливаемый в кружку кофе) и свойства света (тени и отражения); правдоподобно имитируются разные линзы на виртуальной камере и кинематографические эффекты.

Разработчик также уверяет, что у новой модели с меньшей вероятностью проявляются галлюцинации: дополнительные пальцы или «неожиданные объекты»; при этом, как показала практика, от эффекта «зловещей долины» избавиться не удалось. А на видео с движущимся автомобилем дорога при ближайшем рассмотрении оказывается чрезвычайно гладкой, пешеходы сливаются друг с другом, а некоторые фасады домов имеют вид, который противоречит законам физики.

Новый генератор видео был обучен на большом числе роликов; в DeepMind не уточнили, какие источники для этого использовались, но одним из них, вероятно, является принадлежащая Google платформа YouTube. Чтобы снизить риск возникновения дипфейков, в Veo 2 встроили систему SynthID — невидимую маркировку генерируемых моделью видео.

В DeepMind также сообщили, что улучшили работу генератора статических изображений Imagen 3 — созданные с его помощью картинки стали более яркими, детализированными, а сама модель теперь более точно следует запросам пользователя. В пользовательском интерфейсе ImageFX, где доступен генератор изображений, появились выпадающие списки, которые появляются прямо в поле запроса и помогают добиться более точного результата.

Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения

Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек.

 Источник изображений: Google

Источник изображений: Google

Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты.

После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров.

ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля.

Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам.

Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент.

«Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch.

С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов.

«Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн.

Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году.

Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах.

Google запустила «всеобъемлющую» ИИ-модель Gemini 2.0, которая может заменить человека

Представлена новая модель ИИ Gemini 2.0 от Google, которая стала предельно универсальной — она генерирует текст, звук и изображения, а также предлагает новые мультимодальные возможности, которые закладывают основу для следующего большого этапа в развитии ИИ: агентов, которые в буквальном смысле могут заменить пользователя в рутинных операциях. Новая модель также стала заметно производительнее и энергоэффективнее.

 Источник изображения: techspot.com

Источник изображения: techspot.com

Как и любая другая компания, участвующая в гонке ИИ, Google лихорадочно встраивает ИИ во всё, до чего может дотянуться, пытаясь создать коммерчески успешные продукты. Одновременно требуется так настроить всю инфраструктуру, чтобы дорогостоящие ИИ-решения не разорили компанию. Тем временем Amazon, Microsoft, Anthropic и OpenAI вливают свои собственные миллиарды в практически тот же самый набор проблем.

Gemini 2.0 представлена примерно через 10 месяцев после выпуска версии 1.5. Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) очень высоко оценивает новую модель, называя её «всеобъемлющей», хотя Gemini 2.0 все ещё находится в стадии «экспериментального предварительного просмотра», по терминологии Google. Тем не менее Хассабис уверен, что новая модель предоставит совершенно другой уровень возможностей, в первую очередь в области агентского ИИ.

Агентским ИИ называют ИИ-ботов, которые могут полноценно выполнять действия от имени пользователя. Например, Project Astra от Google — это визуальная система, которая может распознавать объекты, помогает ориентироваться в мире и находить утерянные предметы. По словам Хассабиса, возможности Astra в версии Gemini 2.0 многократно возросли.

Другой пример — Google Project Mariner — экспериментальное расширение для браузера Chrome, которое может буквально подменять пользователя при веб-серфинге. Агент Jules, в свою очередь, помогает разработчикам в поиске и исправлении плохого программного кода. Выпущен даже агент, который помогает лучше играть в видеоигры. Хассабис приводит его в пример в качестве по-настоящему мультимодальной модели ИИ.

«Мы действительно считаем 2025 год настоящим началом эры на основе агентов, — заявил Хассабис, — Gemini 2.0 является её основой». Он также отметил возросшую производительность и энергоэффективность новой модели, особенно на фоне общего замедления прогресса в отрасли ИИ.

План Google относительно Gemini 2.0 заключается в том, чтобы использовать её абсолютно везде. Google ставила своей целью внедрить как можно больше функций в единую модель, а не запускать множество отдельных разрозненных продуктов. «Мультимодальность, различные виды выходных данных, функции — цель состоит в том, чтобы включить все это в основополагающую модель Gemini. Мы пытаемся построить максимально общую модель», — говорит Хассабис.

По словам Хассабиса, с началом агентской эры ИИ потребуется решать как новые, так и старые проблемы. Старые вечны, они касаются производительности, эффективности и стоимости вывода. Новые во многом связаны с рисками в сфере безопасности и конфиденциальности.

Gemini 2.0 на данный момент находится на экспериментальной стадии, причём только в облегчённой версии Gemini 2.0 Flash. Выход окончательной версии запланирован на начало следующего года.

Google DeepMind создала ИИ, который предсказывает погоду быстрее и точнее существующих систем

Google DeepMind разработала новую модель прогнозирования погоды с помощью искусственного интеллекта (ИИ) GenCast, которая превосходит традиционные метеорологические методы по прогнозированию погоды на срок до 15 дней и, к тому же, точнее предсказывает экстремальные погодные явления.

 Источник изображения: NOAA/unsplash.com

Источник изображения: NOAA/unsplash.com

ИИ-модель GenCast рассматривает вероятность реализации нескольких сценариев для точной оценки тенденций — от выработки энергии ветра до перемещения тропических циклонов. Вероятностный метод GenCast является новым рубежом в использовании ИИ для обеспечения более качественных и быстрых ежедневных прогнозов погоды. Этот подход всё чаще используют крупные метеослужбы, пишет Financial Times.

«Это знаменует собой своего рода переломный момент в развитии ИИ для прогнозирования погоды, поскольку современные необработанные прогнозы теперь поступают из моделей машинного обучения», — отметил Илан Прайс (Ilan Price), научный сотрудник Google DeepMind. Он добавил, что GenCast может быть включен в оперативные системы прогнозирования погоды, что позволит метеорологам лучше понимать тенденции и готовиться к предстоящим погодным явлениям.

Новизна подхода GenCast в сравнении с предыдущими моделями машинного обучения заключается в использовании так называемых ансамблевых прогнозов, представляющих различные результаты, — метода, применяемого в современном традиционном прогнозировании погоды. Для обучения GenCast использовалась накапливавшаяся в течение четырёх десятилетий база данных Европейского центра среднесрочного прогнозирования погоды (ECMWF).

Согласно публикации в Nature, модель GenCast превзошла 15-дневный прогноз ECMWF по 97,2 % из 1320 переменных, таких как температура, скорость ветра и влажность. Таким образом она превзошла по точности и охвату ИИ-модель GraphCast от Google DeepMind, представленную в прошлом году. GraphCast превзошла прогнозы ECMWF на 3–10 дней вперед примерно по 90 % показателей.

Модели прогнозирования погоды на основе ИИ работают гораздо быстрее стандартных методов прогнозирования, которые полагаются на огромную вычислительную мощность для обработки данных. GenCast может сгенерировать свой прогноз всего за восемь минут, тогда как на составление прогноза с помощью традиционных методов уходят часы.

По словам исследователей, ИИ-модель GenCast может быть дополнительно улучшена в части способности предсказания интенсивности крупных штормов. Также может быть увеличено разрешение её данных, чтобы соответствовать обновлениям, сделанным в этом году ECMWF.

ECMWF назвал разработку GenCast «важной вехой в развитии прогнозирования погоды». Центр также сообщил, что интегрировал «ключевые компоненты» подхода GenCast в версию своей собственной системы прогнозирования ИИ с ансамблевыми прогнозами, доступную с июня.

Google DeepMind представила ИИ-модель Genie 2, которая может превращать тексты в трёхмерные игры

Команда Google DeepMind представила Genie 2 — вторую версию фундаментальной модели ИИ, способной на лету генерировать новые интерактивные цифровые окружения, или игровые миры.

 Источник изображений: Google

Источник изображений: Google

Напомним, оригинальная Genie была выпущена в феврале и могла генерировать виртуальные 2D-миры из синтезированных изображений. Genie 2 способна делать это в 3D и на основе текстовых команд.

Пользователь может описать желаемый мир, выбрать подходящий рендеринг и ступить в новое окружение. На каждом шагу человек/агент совершает действие (движение мыши, нажатие клавиши на клавиатуре), а Genie 2 имитирует его последствия.

 В основе каждого примера — изображение, сгенерированное ИИ-моделью Imagen 3 на основе текстовой подсказки

В основе каждого примера — изображение, сгенерированное ИИ-моделью Imagen 3 на основе текстовой подсказки

По словам Google DeepMind, Genie 2 может генерировать последовательные интерактивные миры продолжительностью около минуты, хотя большинство показанных (см. видео ниже) примеров длятся 10−20 секунд.

По сравнению с первой версией Genie 2:

  • может запоминать элементы мира, которые не находятся в поле зрения;
  • может создавать окружение с разными перспективами (от первого или третьего лица, изометрическая камера и так далее);
  • может создавать комплексные трёхмерные сцены;
  • может моделировать разнообразные взаимодействия с объектами вроде лопания воздушных шаров, открытия дверей или подрыва взрывоопасным бочек выстрелом;
  • научилась анимировать персонажей разных типов;
  • научилась моделировать NPC и взаимодействия с ними;
  • научилась моделировать эффекты воды, дыма, гравитацию, освещение, отражения;
  • научилась моделировать интерактивное окружение на основе реальных фотографий.

По мнению Google DeepMind, Genie 2 демонстрирует потенциал фундаментальных моделей мира для создания разнообразных трёхмерных окружений и ускорения тренировок/тестирования ИИ-агентов (вроде того же SIMA).

Google DeepMind уточняет, что исследование находится на ранней стадии и требует значительных улучшений в областях возможностей агентов и генерации среды, но уже видит в Genie 2 решение структурной проблемы безопасной тренировки ИИ-агентов.

Waymo и Gemini научат роботакси справляться со сложными дорожными ситуациями

Waymo, дочерняя компания Alphabet, представила новый подход к обучению своих беспилотных транспортных средств, используя модель Gemini — большую мультимодальную языковую модель (MLLM) от Google. Модель улучшит навигацию автономных автомобилей и позволит лучше справляться со сложными дорожными ситуациями.

 Источник изображения: waymo.com

Источник изображения: waymo.com

В новом исследовательском докладе Waymo дала определение своей разработке как «сквозной мультимодальной модели для автономного вождения» (EMMA), которая обрабатывает данные с сенсоров и помогает роботакси принимать решения о направлении движения, избегая препятствий. Как пишет The Verge, Waymo давно подчёркивала своё стратегическое преимущество благодаря доступу к научным исследованиям в области искусственного интеллекта (ИИ) Google DeepMind, ранее принадлежавшей британской компании DeepMind Technologies.

Новая система EMMA представляет собой принципиально иной подход к обучению автономных транспортных средств. Вместо традиционных модульных систем, которые разделяют функции на восприятие, планирование маршрута и другие задачи, EMMA предлагает единый подход, который позволит обрабатывать данные комплексно, поможет избежать ошибок, возникающих при передаче данных между модулями, и улучшит адаптацию к новым, незнакомым условиям на дороге в реальном масштабе времени.

Одним из ключевых преимуществ использования моделей MLLM, в частности Gemini, является их способность к обобщению знаний, почерпнутых из огромных объёмов данных, полученных из интернета. Это позволяет моделям лучше адаптироваться к нестандартным ситуациям на дороге, таким как неожиданное появление животных или ремонтные работы. Кроме того, модели, обученные на основе Gemini, способны к «цепочке рассуждений». Это метод, который помогает разбивать сложные задачи на последовательные логические шаги, улучшая процесс принятия решений.

Несмотря на успехи, Waymo признает, что EMMA имеет свои ограничения. Например, модель пока не поддерживает обработку 3D-данных с таких сенсоров, как лидар или радар, из-за высокой вычислительной сложности. Кроме того, EMMA способна обрабатывать лишь ограниченное количество кадров изображений одновременно. Подчёркивается, что потребуется дальнейшее исследование для преодоления всех этих ограничений перед полноценным внедрением модели в реальных условиях.

Waymo также осознает и риски, связанные с использованием MLLM в управлении автономными транспортными средствами. Модели, подобные Gemini, могут допускать ошибки или «галлюцинировать» в простых задачах, что конечно недопустимо на дороге. Тем не менее, есть надежда, что дальнейшие исследования и улучшения архитектуры ИИ-моделей для автономного вождения преодолеют эти проблемы.

Главный разработчик ИИ-видеогенератора Sora сбежал из OpenAI в Google DeepMind

Тим Брукс (Tim Brooks), возглавлявший вместе с Уильямом Пиблзом (William Peebles) в OpenAI разработку ИИ-генератора видео Sora, сообщил о своём переходе в ИИ-лабораторию Google DeepMind. Там он займётся исследованиями в области создания видео при помощи ИИ и «симуляторами мира». По слухам, уход Брукса вызван техническими проблемами Sora и отставанием в производительности от конкурирующих систем Luma, Runway и других.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) уверен, что приход Брукса поможет «сделать реальностью давнюю мечту о симуляторе мира». Под этим термином подразумеваются такие модели ИИ, как недавно выпущенная Genie, которая может генерировать играбельные, управляемые виртуальные миры из синтезированных изображений, реальных фотографий и даже эскизов.

В OpenAI Брукс был одним из первых исследователей, работавших над моделью ИИ Sora, представленной в январе 2023 года. Осведомлённые источники связывают его уход с техническими проблемами, от которых, как утверждается, страдает система — ей требовалось более 10 минут для создания 1-минутного видеоклипа. Сообщается, что OpenAI находится в процессе обучения улучшенной модели Sora, которая сможет генерировать видео гораздо быстрее.

Весной 2024 года Google представила собственную модель генерации видео под названием Veo. Ожидается, что Veo скоро станет доступна создателям контента в сервисе коротких видео YouTube Shorts.

Похоже, что OpenAI пока уступает конкурентам в продвижении разработок по созданию видеоконтента. В начале прошлого месяца Runway подписала соглашение со студией Lionsgate на обучение пользовательской модели видео на основе каталога фильмов Lionsgate. В это же время Stability, которая разрабатывает собственный набор моделей генерации видео, ввела в совет директоров режиссёра «Аватара», «Терминатора» и «Титаника» Джеймса Кэмерона (James Cameron).

В начале этого года OpenAI демонстрировала Sora кинематографистам и представителям голливудских студий, но о заключении долгосрочных партнёрских соглашений объявлено не было.

Любопытно, что Брукс фактически возвращается в Google, ведь ранее он занимался разработкой телефонов Pixel. Нужно отметить, что он пополнил череду уволившихся из OpenAI высокопоставленных сотрудников и учредителей:

  • Известный исследователь Андрей Карпати (Andrej Karpathy) покинул OpenAI в феврале.
  • Несколько месяцев спустя соучредитель OpenAI и бывший главный научный сотрудник Илья Суцкевер (Ilya Sutskever) ушёл вместе с бывшим руководителем по безопасности Яном Лейке (Jan Leike).
  • В августе соучредитель Джон Шульман (John Schulman) заявил, что покинет OpenAI.
  • Технический директор Мира Мурати (Mira Murati), главный научный сотрудник Боб МакГрю (Bob McGrew) и вице-президент по исследованиям Баррет Зоф (Barret Zoph) объявили о своём уходе в конце сентября.
  • Президент компании Грег Брокман (Greg Brockman) находится в творческом отпуске.

В Google DeepMind научили робота завязывать шнурки и чинить других роботов

Дети обычно учатся завязывать шнурки к 5–6 годам. В это же время роботы пытаются освоить выполнение данной задачи уже несколько десятилетий. Похоже, что разработчикам из Google DeepMind удалось продвинуться в этом. А кроме того они преуспели в обучении робота выполнению некоторых других действий, требующих ловкости.

 Источник изображения: Google DeepMind

Источник изображения: Google DeepMind

Исследователи из Google DeepMind продемонстрировали метод обучения, позволяющий научить робота выполнять некоторые требующие определённой ловкости действия, такие как завязывание шнурков, подвешивание рубашек и даже починка других роботов.

Достигнуть определённых успехов в этом направлении удалось благодаря новой обучающей платформе ALOHA Unleashed и собственной программе моделирования DemoStart, которая позволяет роботам обучаться в процессе наблюдения за людьми.

Исследование команды DeepMind в первую очередь демонстрирует, как роботизированные системы могут научиться выполнять достаточно сложные задачи, обучаясь на визуальных демонстрациях. Однако эта работа имеет также важное практическое значение, поскольку такие роботы могут оказаться полезны, особенно для оказания помощи людям с ограниченными возможностями.

Google показала робота, играющего в настольный теннис не хуже человека

Спорт является отличным испытанием для роботов. Например, ежегодный футбольный турнир RoboCup проводится с середины 1990-х годов. А настольный теннис используется для сравнительного тестирования роботизированных манипуляторов с 1980-х. От робота требуются высокая подвижность, быстрая реакция и стратегическое мышление. Робот, представленный Google DeepMind, показал уровень среднего любителя, но с профессионалами справиться не смог.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

В недавно опубликованной статье под названием «Достижение уровня человеческого конкурентоспособного робота для настольного тенниса» команда Google DeepMind Robotics представила робота, «способного соревноваться в спорте с людьми на человеческом уровне, и он представляет собой веху в обучении и управлении роботами».

Во время тестирования робот смог победить всех игроков начального уровня, с которыми столкнулся. С игроками среднего уровня робот выиграл 55 % матчей. Однако профессионалам робот проиграл все поединки. В целом система выиграла 45 % из 29 сыгранных матчей. Самый большой недостаток системы — запоздалая реакция на быстрые мячи. Робот также испытывает трудности с игрой бэкхендом, приёмом высоких и низких мячей, и оценкой вращения мяча.

«Чтобы устранить ограничения задержки, которые мешают времени реакции робота на быстрые мячи, мы предлагаем исследовать расширенные алгоритмы управления и аппаратные оптимизации, — полагают разработчики. — Сюда может входить изучение прогностических моделей для прогнозирования траекторий мячей или реализация более быстрых протоколов связи между датчиками и исполнительными механизмами робота».

DeepMind уверена в перспективности своей разработки: «Это лишь небольшой шаг к давней цели в робототехнике — достижению производительности человеческого уровня по многим полезным навыкам реального мира. Ещё многое предстоит сделать, чтобы последовательно достигать производительности человеческого уровня по отдельным задачам, а затем и выше, создавая универсальных роботов, способных выполнять множество полезных задач, умело и безопасно взаимодействуя с людьми в реальном мире».

ИИ-модели Google DeepMind решили задачи математической олимпиады на уровне серебряного медалиста

Google DeepMind, базирующееся в Лондоне дочернее предприятие Google, специализирующееся на исследованиях в сфере искусственного интеллекта (ИИ), представило ИИ-модели AlphaProof и AlphaGeometry 2, способные решать сложные математические задачи, с которыми не справляются нынешние ИИ-модели.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

По ряду причин решение математических задач, требующих способности к продвинутым рассуждениям, пока не по силам большинству ИИ-систем. Дело в том, что такие типы задач требуют формирования и использования абстракций. Также требуется сложное иерархическое планирование, постановка подцелей, откат и поиски новых путей, что является сложным вопросом для ИИ.

Обе новые ИИ-модели обладают способностью к продвинутым математическим рассуждениям для решения сложных математических задач. AlphaProof была создана с использованием обучения с подкреплением, получив способность доказывать математические утверждения на формальном языке программирования Lean. Для её создания использовалась предварительно обученная языковая модель AlphaZero, алгоритм обучения с подкреплением, который ранее сам себя научил играть в шахматы, сёги и го. В свою очередь, AlphaGeometry 2 представляет собой усовершенствованную версию существующей ИИ-системы AlphaGeometry, представленной в январе и предназначенной для решения задач по геометрии.

В то время как AlphaProof была обучена решению задач по широкому кругу математических тем, AlphaGeometry 2 оптимизирована для решения задач, связанных с перемещениями объектов и уравнениями, включающими углы, соотношения и расстояния. Поскольку AlphaGeometry 2 была обучена на значительно большем количестве синтетических данных, чем предшественник, она может справиться с гораздо более сложными геометрическими задачами.

Чтобы проверить возможности новых ИИ-систем, исследователи Google DeepMind поручили им решить шесть задач Международной математической олимпиады (IMO) этого года и доказать правильность ответов. AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, одна из которых была самой сложной на олимпиаде, в то время как AlphaGeometry 2 решила задачу по геометрии. Две задачи по комбинаторике остались нерешёнными.

Два известных математика, Тим Гауэрс (Tim Gowers) и Джозеф Майерс (Joseph Myers), проверили представленные системами решения. Они присудили каждому из четырёх правильных ответов максимальное количество баллов (семь из семи), что дало системам в общей сложности 28 баллов из максимальных 42. Участник олимпиады, набравший столько же баллов, был бы награждён серебряной медалью и немного не дотянул бы до золота, которое присуждается набравшим 29 баллов и больше.

Впервые ИИ-система смогла достичь результатов в решении математических задач IMO на уровне медалиста. «Как математик, я нахожу это очень впечатляющим и значительным скачком по сравнению с тем, что было возможно ранее», — заявил Гауэрс во время пресс-конференции.

Создание систем ИИ, способных решать сложные математические задачи, может проложить путь для захватывающего сотрудничества человека и ИИ, считает Кэти Коллинз (Katie Collins), исследователь из Кембриджского университета. Это, в свою очередь, может помочь нам узнать больше о том, как мы, люди, справляемся с математикой. «Мы всё ещё многого не знаем о том, как люди решают сложные математические задачи», — говорит она.

Google научила робота выполнять команды и ездить по офису с помощью нейросети Gemini

Команда Google DeepMind Robotics продемонстрировала на этой неделе, как обученный с помощью нейросети Google Gemini 1.5 Pro робот RT-2 может выполнять команды, озвученные на естественном языке, и перемещаться по офисному помещению.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

DeepMind Robotics опубликовала статью под названием «Mobility VLA: мультимодальная навигация по инструкциям с помощью VLM с длинным контекстом и топологическими графами», в которой в серии видеороликов робот выполняет различные задачи в офисном помещении площадью 9000 кв. футов (836 м2).

В одном из видеороликов сотрудник Google просит робота отвести его куда-нибудь, чтобы порисовать. «Хорошо, — отвечает тот, — дай мне минутку. Размышляем вместе с Gemini...». Затем робот подводит человека к лекционной доске размером со стену.

Во втором видео другой сотрудник предлагает роботу следовать указаниям на доске. Он рисует простую карту, на которой показано, как добраться до «Синей зоны». И снова робот на мгновение задумывается, прежде чем отправиться по указанному маршруту к месту, которое оказывается площадкой для испытаний робототехники. «Я успешно выполнил указания на доске», — докладывает робот.

Перед записью видеороликов роботов ознакомили с пространством с помощью решения «Мультимодальная навигация по инструкциям с демонстрационными турами (MINT)». Благодаря этому робот может перемещаться по офису в соответствии с указанными с помощью речи различными ориентирами. Затем DeepMind Robotics использовала иерархическую систему «Видение-Язык-Действие» (VLA), «которая сочетает в себе понимание окружающей среды и силу здравого смысла». После объединения процессов робот получил способность реагировать на написанные и нарисованные команды, а также на жесты и ориентироваться на местности.

Как утверждает Google, примерно в 90 % из 50 взаимодействий с сотрудниками роботы успешно выполняли данные им инструкции.

Гендиректор Google DeepMind: уровень IQ нынешних ИИ-моделей ниже, чем у домашнего кота

Многие компании в сфере ИИ заявляют о достижениях в разработке больших языковых моделей, однако по мнению гендиректора Google DeepMind Демиса Хассабиса (Demis Hassabis), их уровень IQ оставляет желать лучшего. «Мы ещё даже не достигли кошачьего интеллекта как общей системы», — заявил он, отвечая на вопрос о прогрессе DeepMind в области разработки сильного искусственного интеллекта (Artificial General Intelligence, AGI), пишет ресурс Tom's Hardware.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

В ходе публичной дискуссии с бывшим премьер-министром Великобритании Тони Блэром (Tony Blair) на конференции «Будущее Британии 2024», Хассабис заявил, что работа его команды сосредоточена не на ИИ, а на AGI. И хотя ИИ-модели могут писать, рисовать и создавать музыку подобно человеку, обычный домашний питомец обладает гораздо более развитым интеллектом. «На данный момент мы далеки от интеллекта человеческого уровня по всем направлениям, — утверждает Хассабис. — Но в некоторых областях, например, в играх, ИИ лучше лучших в мире».

Вместе с тем глава DeepMind считает громадным потенциал ИИ, который станет драйвером ускорения научных открытий в энергетике, материаловедении, здравоохранении, климате и математике. Хассабис упомянул проект DeepMind под названием Project Astra, нацеленный на создание универсального мультимодального ИИ-помощника, который отличается от ChatGPT и Google Gemini более широкими возможностями, и который будет полезен в повседневной жизни.

По словам Хассабиса, для того, чтобы ИИ достиг IQ человеческого уровня, необходимы технологические инновации в данной сфере и огромные вычислительные ресурсы.

Google придумала, как в 13 раз ускорить обучение ИИ и снизить потребление энергии в 10 раз

Google DeepMind разработала новый метод обучения искусственного интеллекта, который обещает значительно повысить эффективность ИИ-систем и снизить энергопотребление в сфере ИИ. Технология может стать ответом на растущую озабоченность по поводу экологического воздействия центров обработки данных для ИИ.

 Источник изображения: Google DeepMind

Источник изображения: Google DeepMind

Исследовательская лаборатория Google DeepMind представила инновационный метод обучения моделей искусственного интеллекта под названием JEST (Joint Example Selection), который может привести к кардинальным изменениям в области ИИ. Согласно опубликованному исследованию, новая технология обеспечивает 13-кратное снижение числа итераций при обучении и 10-кратное снижение энергопотребления по сравнению с существующими методами, сообщает Tom's Hardware. Иными словами, ИИ можно обучать на порядок быстрее и эффективнее.

JEST отличается от традиционных подходов тем, что обучается на основе целых пакетов данных, а не на отдельных частях. JEST сначала создаёт меньшую модель ИИ, которая оценивает качество данных из источников и ранжирует пакеты по качеству. Затем он сравнивает свою оценку с набором более низкого качества. Далее JEST определяет пакеты, наиболее подходящие для обучения, а затем большая модель обучается на основе наиболее качественных данных, отобранных меньшей моделью.

Ключевым фактором успеха JEST является использование высококачественных, тщательно отобранных наборов данных. Это делает метод особенно требовательным к исходной информации и может ограничить его применение любителями и непрофессиональными разработчиками.

Интересно, что появление JEST совпало с растущей озабоченностью по поводу энергопотребления систем ИИ. По данным исследователей, в 2023 году рабочие нагрузки ИИ потребляли около 4,3 ГВт электроэнергии, что сопоставимо с годовым потреблением Кипра. Более того, один запрос ChatGPT потребляет в 10 раз больше энергии, чем поисковый запрос Google.

Эксперты отмечают, что новая технология может быть использована двояко: для снижения энергопотребления при сохранении текущей производительности или для достижения максимальной производительности при том же уровне энергозатрат. Выбор направления будет зависеть от приоритетов компаний и рыночных тенденций.

Внедрение JEST может оказать значительное влияние на индустрию ИИ, учитывая высокую стоимость обучения современных моделей. Например, затраты на обучение GPT-4 оцениваются в 100 миллионов долларов, а будущие модели могут потребовать еще больших инвестиций. Таким образом, представленный Google DeepMind метод JEST открывает принципиально новые возможности для повышения эффективности и снижения затрат в ИИ-технологии. Практическое применение метода ещё предстоит оценить.

Ведущие разработчики пытаются привить ИИ чувство юмора

Подразделение Google DeepMind разрабатывает системы искусственного интеллекта, способные решать важнейшие задачи от прогнозирования экстремальной непогоды до разработки новых методов лечения. Но недавно исследователи попытались ответить на вопрос, способен ли ИИ придумать смешную шутку.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Группа исследователей DeepMind, двое из которых в свободное время выступают в качестве комиков-импровизаторов, обратилась к 20 профессиональным комикам оценить работу передовых современных чат-ботов в аспекте написания шуток. Отзывы оказались негативными: ИИ в глазах профессионалов оказался пресным, неоригинальным и чрезмерно политкорректным. Они сделали вывод, что «юмор — сугубо человеческое ремесло; авторы и исполнители должны опираться на личный опыт, социальный контекст и понимание своей аудитории». Это знаменует наличие «фундаментальных проблем» у современных моделей ИИ, которые обучаются на данных моментального временного среза и слабо знакомы с контекстом ситуаций, в которых используются.

DeepMind — не единственный технологический игрок, который задумался о чувстве юмора ИИ или о его отсутствии. Так, стартап Илона Маска (Elon Musk) xAI позиционирует свою модель Grok как более смешную альтернативу считающимся традиционными чат-ботам. На этой неделе Anthropic выпустила свою обновлённую модель ИИ Claude 3.5 Sonnet, которая, как утверждает разработчик, тоньше воспринимает нюансы и юмор. А в одной из недавних демонстраций OpenAI рассказывает голосовой версии GPT «батину шутку», чтобы услышать реакцию — ИИ смеётся, но, возможно, недостаточно убедительно.

Для технологической компании создание смешного ИИ — важная задача. Сейчас основное внимание уделяется разработке чат-ботов, способных обрабатывать всё более сложные запросы и при этом оставаться достаточно приятными собеседниками, чтобы люди хотели продолжать общение с ними дома и на работе. Возможно, в этом их проблема: чтобы научиться смешно шутить, ИИ потребуется стать резче, и это может оскорбить некоторых пользователей. «Нам нужно найти равновесие. Юмор может разъединить людей: у разных аудиторий граница между смешным и обидным пролегает в разных местах. Важно минимизировать этот риск, возможно, за счёт юмора», — рассказала Bloomberg Джульетта Лав (Juliette Love), одна из авторов исследования DeepMind.

Google сменила приоритет в ИИ: коммерческие продукты взяли верх над научными исследованиями

Google реорганизует свои ИИ и меняет приоритеты, смещая фокус с исследований на коммерциализацию. Это станет своего рода ответом на достижения конкурента в лице OpenAI, ведь всё чаще высказываются мысли, что ChatGPT и ему подобные боты в итоге могут заменить традиционный поиск в интернете, сообщает Bloomberg.

 Источник изображения: Google

Источник изображения: Google

Технологический гигант в последнее время переживает не лучшие времена в гонке за лидерство в сфере искусственного интеллекта. Несмотря на то, что компания обладает огромными ресурсами и талантливыми учёными, конкуренты, такие как OpenAI, опережают Google в выпуске инновационных продуктов ИИ.

В мае Google запустила AI Overview — сервис, генерирующий ответы на поисковые запросы. Запуск прошёл не слишком удачно: система стала выдавать абсурдные и опасные рекомендации вроде «есть камни» или «намазывать пиццу клеем». Через неделю Google пришлось ввести ограничения на использование сервиса и фактически признать провал, обвинив пользователей в провокационных поисковых запросах.

А всего за день до анонса AI Overview конкурирующая компания OpenAI представила улучшенную версию своего чат-бота ChatGPT, который моментально завоевал популярность. И ChatGPT, и AI Overview основаны на одной и той же технологии, получившей название Transformer, разработанной Google ещё в 2017 году. Таким образом, компания фактически поделилась своими достижениями с конкурентом, который сегодня обогнал Google в практическом применении.

Google ещё в прошлом году решила объединить свои две элитные команды в области ИИ — Google Brain и DeepMind — в единое подразделение Google DeepMind для улучшения репутации в сфере коммерческих продуктов ИИ, не теряя при этом сильные позиции компании в фундаментальных исследованиях. Подразделение возглавил Демис Хассабис (Demis Hassabis), ранее руководивший DeepMind и известный своими достижениями в области ИИ.

Однако объединение двух разных по культуре подразделений не обошлось без проблем. Некоторые сотрудники жалуются, что чистая наука теперь получает меньше внимания и ресурсов, а приоритет отдаётся продуктам, способным принести доход. Первые попытки выпустить такие продукты оказались не слишком удачными. Те же AI Overview были, как было отмечено выше, омрачены скандалом из-за опасных и вредных советов.

Тем не менее, в компании заявляют, что продолжат работу по улучшению своих продуктов ИИ и их интеграции в сервисы Google. Основные усилия сосредоточены на разработке модели Gemini, которая должна конкурировать с GPT от OpenAI. Хассабис отмечает, что «новые технологии требуют внимательного изучения особенностей их поведения при взаимодействии с пользователями».

Интересно, что ранее Google Brain и DeepMind конкурировали друг с другом, иногда даже скрывая свои разработки друг от друга. Пока что процесс соединения идёт непросто. Учёные жалуются на ограниченный доступ к вычислительным мощностям и давление со стороны менеджмента. А некоторые сотрудники DeepMind вообще покинули компанию после слияния подразделений.


window-new
Soft
Hard
Тренды 🔥
Киберпанковый слешер Ghostrunner 2 стал новой бесплатной игрой в Epic Games Store — раздача доступна в России и продлится всего 24 часа 33 мин.
Activision сыграет в кальмара: новый трейлер раскрыл, когда в Call of Duty: Black Ops 6 стартует кроссовер со Squid Game 2 2 ч.
«К чёрту Embracer Group»: неизвестный устроил утечку исходного кода Saints Row IV 3 ч.
Отечественная платформа Tantor повысит производительность и удобство работы с СУБД на базе PostgreSQL 6 ч.
В Steam вышла новая демоверсия голливудской стратегии Hollywood Animal от авторов This is the Police 6 ч.
IT-холдинг Т1 подал иск к «Марвел-Дистрибуции» в связи с уходом Fortinet из России 7 ч.
Рождественское чудо: в открытый доступ выложили документы Rockstar начала 2000-х, включая планы на GTA Online от 2001 года 7 ч.
«Битрикс24» представил собственную ИИ-модель BitrixGPT 8 ч.
За 2024 год в Китае допустили к релизу более 1400 игр — это лучший результат за последние пять лет 9 ч.
Google применила конкурирующего ИИ-бота Anthropic Claude для улучшения своих нейросетей Gemini 9 ч.
Китайский автопроизводитель GAC представил гуманоидного робота GoMate с 38 степенями свободы 42 мин.
Главный конкурент Tesla запустил разработку человекоподобных роботов 57 мин.
Omdia: быстрый рост спроса на TPU Google ставит под вопрос доминирование NVIDIA на рынке ИИ-ускорителей 3 ч.
Российскую игровую приставку собрались построить на процессоре «Эльбрус», для которого не существует игр 3 ч.
Ubitium придумала универсальный процессор — он один выполняет работу CPU, GPU, FPGA и DSP 4 ч.
Equinix предложил ИИ-фабрики на базе систем Dell с ускорителями NVIDIA 4 ч.
NASA показало «рождественскую ель» галактического масштаба 5 ч.
Китайский оператор ЦОД Yovole может выйти на IPO в США — после неудавшейся попытки в Китае 5 ч.
Patriot представила SSD P400 V4 PCIe 4.0 — до 4 Тбайт и до 6200 Мбайт/с 5 ч.
OnePlus представила доступные флагманы Ace 5 и Ace 5 Pro со Snapdragon, большими экранами и до 16 Гбайт ОЗУ 6 ч.