Сегодня 25 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → агенты

Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения

Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек.

 Источник изображений: Google

Источник изображений: Google

Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты.

После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров.

ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля.

Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам.

Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент.

«Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch.

С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов.

«Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн.

Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году.

Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах.

Google запустила «всеобъемлющую» ИИ-модель Gemini 2.0, которая может заменить человека

Представлена новая модель ИИ Gemini 2.0 от Google, которая стала предельно универсальной — она генерирует текст, звук и изображения, а также предлагает новые мультимодальные возможности, которые закладывают основу для следующего большого этапа в развитии ИИ: агентов, которые в буквальном смысле могут заменить пользователя в рутинных операциях. Новая модель также стала заметно производительнее и энергоэффективнее.

 Источник изображения: techspot.com

Источник изображения: techspot.com

Как и любая другая компания, участвующая в гонке ИИ, Google лихорадочно встраивает ИИ во всё, до чего может дотянуться, пытаясь создать коммерчески успешные продукты. Одновременно требуется так настроить всю инфраструктуру, чтобы дорогостоящие ИИ-решения не разорили компанию. Тем временем Amazon, Microsoft, Anthropic и OpenAI вливают свои собственные миллиарды в практически тот же самый набор проблем.

Gemini 2.0 представлена примерно через 10 месяцев после выпуска версии 1.5. Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) очень высоко оценивает новую модель, называя её «всеобъемлющей», хотя Gemini 2.0 все ещё находится в стадии «экспериментального предварительного просмотра», по терминологии Google. Тем не менее Хассабис уверен, что новая модель предоставит совершенно другой уровень возможностей, в первую очередь в области агентского ИИ.

Агентским ИИ называют ИИ-ботов, которые могут полноценно выполнять действия от имени пользователя. Например, Project Astra от Google — это визуальная система, которая может распознавать объекты, помогает ориентироваться в мире и находить утерянные предметы. По словам Хассабиса, возможности Astra в версии Gemini 2.0 многократно возросли.

Другой пример — Google Project Mariner — экспериментальное расширение для браузера Chrome, которое может буквально подменять пользователя при веб-серфинге. Агент Jules, в свою очередь, помогает разработчикам в поиске и исправлении плохого программного кода. Выпущен даже агент, который помогает лучше играть в видеоигры. Хассабис приводит его в пример в качестве по-настоящему мультимодальной модели ИИ.

«Мы действительно считаем 2025 год настоящим началом эры на основе агентов, — заявил Хассабис, — Gemini 2.0 является её основой». Он также отметил возросшую производительность и энергоэффективность новой модели, особенно на фоне общего замедления прогресса в отрасли ИИ.

План Google относительно Gemini 2.0 заключается в том, чтобы использовать её абсолютно везде. Google ставила своей целью внедрить как можно больше функций в единую модель, а не запускать множество отдельных разрозненных продуктов. «Мультимодальность, различные виды выходных данных, функции — цель состоит в том, чтобы включить все это в основополагающую модель Gemini. Мы пытаемся построить максимально общую модель», — говорит Хассабис.

По словам Хассабиса, с началом агентской эры ИИ потребуется решать как новые, так и старые проблемы. Старые вечны, они касаются производительности, эффективности и стоимости вывода. Новые во многом связаны с рисками в сфере безопасности и конфиденциальности.

Gemini 2.0 на данный момент находится на экспериментальной стадии, причём только в облегчённой версии Gemini 2.0 Flash. Выход окончательной версии запланирован на начало следующего года.

ИИ отправит на свалку истории поисковики и браузеры, считает глава Microsoft AI

Разработчики генеративных нейросетей, такие как Google и OpenAI, уверены, что в скором будущем пользователи будут делегировать обработку интернет-запросов и выполнение разных задач чат-ботам или ИИ-агентам. Глава подразделения Microsoft AI Мустафа Сулейман (Mustafa Suleyman) считает, что ИИ-алгоритмы смогут заменить веб-браузеры, а некоторые эксперты предсказывают, что со временем подобные приложения станут похожими на операционные системы.

 Источник изображений: techspot.com

Источник изображений: techspot.com

В беседе с журналистами портала The Verge Сулейман рассказал о будущем, в котором диалоговые генеративные ИИ-интерфейсы могут сделать обычные веб-браузеры устаревшими. Однако, прежде чем эта концепция будет реализована на практике, технология должна преодолеть массу препятствий. Он выразил уверенность в дальнейшем развитии ИИ, но умерил ожидания в отношении искусственного интеллекта общего назначения (Artificial General Intelligence), который также называют сильным ИИ, способным решать задачи наравне с человеком.

Сулейман считает, что в нынешнем виде процесс взаимодействия с поисковыми системами является слишком громоздким. По его мнению, гораздо более удобно делать запросы в приложении Copilot на своём iPhone. По мнению Сулеймана, ИИ-помощники с интерфейсами, сгенерированными нейросетями, смогут заменить традиционные поисковые системы и браузеры в течение трёх-пяти лет.

Если разработчики перепроектируют веб-порталы таким образом, чтобы на них можно было размещать ИИ-агентов, то такие агенты смогут выполнять запросы, взаимодействуя с другими ИИ-системами. Однако при таком сценарии не совсем понятно, сможет ли ИИ корректно находить точные ответы на запросы, и что произойдёт с доходами от рекламы, когда люди перестанут переходить по веб-сайтам. Сулейман не стал заострять внимание на этих вопросах, сказав, что Microsoft добилась значительного прогресса в минимизации количества галлюцинаций ИИ, которые являются основной проблемой ИИ-агентов.

Отраслевой аналитик Ом Малик (Om Malik) считает, что приложения на основе генеративного ИИ могут пойти ещё дальше. В недавней публикации он высказался об ограничениях традиционных браузеров в мире, где всё больше доминируют технологии дополненной и виртуальной реальности, а также искусственный интеллект. Браузеры не сильно изменились с момента их появления, они построены вокруг «интернета, ориентированного на документы». Появление генеративных нейросетей и диалоговых систем бросает вызов этим устоям. Потенциально ИИ способен фрагментировать веб-страницы в интерактивные, персонализированные потоки информации, что не соответствует первоначальным целям браузеров.

Нечто похожее тестирует Google в рамках проекта Project Jarvis, участники которого создали ИИ-агента, способного ограниченно контролировать курсор мыши и браузер пользователя для автоматизации процесса выполнения ряда задач. Бывшие сотрудники Google также работают над созданием работающей онлайн операционной системы на базе ИИ.

Microsoft хочет, чтобы у каждого человека был ИИ-помощник, а у каждого бизнеса — ИИ-агент

На ежегодной конференции Microsoft Ignite компания представила своё видение рабочего процесса на ПК в будущем, связанное с использованием искусственного интеллекта Copilot. Microsoft намерена сделать Copilot не просто вспомогательной функцией, а центральным элементом работы пользователей, объединяющим множество агентов для выполнения различных задач.

 Источник изображения: Copilot

Источник изображения: Copilot

Copilot станет своеобразным суперприложением, через которое пользователи смогут выполнять большую часть задач, поясняет PCMag. Открыв Copilot, пользователь увидит два основных режима — Work и Web. В режиме Work Copilot получает доступ к данным Microsoft Graph, включая электронные письма, чаты в Teams и документы в SharePoint для выполнения задач на основе контекста. Например, для создания списка задач или формирования предложений для совместной работы через инструмент Bizchat.

Пользователь может поручать Copilot много различных задач, которые часто выполняются специальными ИИ-агентами, представляющими из себя либо стандартных агентов Microsoft, либо специфических, созданных компаниями. По сути это то, что имел в виду генеральный директор Microsoft Сатья Наделла (Satya Nadella), когда говорил: «Copilot — это пользовательский интерфейс для ИИ». Именно поэтому на конференции неоднократно звучала фраза: «У каждого человека должен быть Copilot, и у каждого бизнес-процесса свой ИИ-агент».

Стоит отметить, что Copilot и так уже демонстрирует на сегодня впечатляющие возможности. Например, пользователь может попросить его подготовить повестку для встречи, проанализировав переписку и документы, связанные с участниками. Полученный документ можно отредактировать и отправить коллегам через Bizchat для совместной работы. Также Microsoft представила агентов с узкой специализацией, таких как переводчик, HR-агент, фасилитатор и проектный менеджер.

Переводчик выполняет синхронный перевод с сохранением интонации и тембра голоса. HR-агент способен отвечать на вопросы сотрудников о корпоративных политиках или предоставлять информацию о зарплате и льготах. Проектный менеджер поможет в создании плана проекта. И наконец, фасилитатор будет вести заметки во время встреч в Teams и создавать список задач. Несмотря на то, что эти инструменты находятся на стадии предварительного тестирования, они уже вызывают интерес, благодаря своему потенциалу по снижению затрат и улучшению бизнес-процессов.

Стоит сказать, что внедрение Copilot одновременно связано с рядом вызовов. Как отметил Херайн Оберой (Herain Oberoi), генеральный менеджер по безопасности данных, переход к ИИ-инструментам открывает новые уязвимости. Для решения этой проблемы Microsoft предлагает обновлённый пакет инструментов безопасности, включая Purview Data Loss Prevention, который позволяет классифицировать данные и управлять доступом, также будет внедрена система защиты от предвзятости ИИ-моделей и запрещённого контента. При этом администраторы смогут контролировать, какие ИИ-модели должны использоваться, а какие нет, из более чем 1800 доступных на платформе Azure.

OpenAI планирует выпустить ИИ-агента Operator в январе — он сможет управлять ПК без пользователя

Компания OpenAI готовится к выпуску нового ИИ-агента под кодовым названием Operator, который позволит выполнять разнообразные задачи на компьютере пользователя. Релиз этого инструмента может состояться уже в январе 2025 года.

 Источник изображения: OpenAI

Источник изображения: OpenAI

На первом этапе упомянутое решение будет доступно в качестве предварительной исследовательской версии через API для разработчиков. Operator призван конкурировать с аналогичными ИИ-агентами, такими как недавно представленный Computer Use компании Anthropic и разрабатываемый ИИ-агент Google, ориентированный на потребительский рынок.

OpenAI стремится создать универсальный инструмент, способный выполнять различные операции в веб-браузере и подходящий для решения повседневных задач пользователей. Однако, как отмечает издание Bloomberg, пока неизвестно, предложит ли Operator пользователям значительные преимущества перед аналогичными решениями конкурентов. Исследовательская версия инструмента будет полезна для оценки его потенциальных преимуществ и выявления областей, требующих доработки на основе обратной связи.

Запуск Operator совпадает с публикацией документа OpenAI, содержащего рекомендации для правительства США по вопросам стратегии развития ИИ. В этом документе предлагается создание «экономических зон» для активного развития ИИ-инфраструктуры, а также формирование альянсов с союзниками США, что позволит усилить позиции страны в технологической гонке с Китаем.

Мессенджер «Мail.ru Агент» завершил работу после 21 года существования

VK сообщила о завершении работы мессенджера «Мail.ru Агент». Коммуникационный сервис был востребован в 2000-х годах, однако в последнее время его пользовательская аудитория неуклонно сокращалась. В качестве альтернативы компания рекомендует использовать другие платформы: «VK Мессенджер» для личного общения и VK WorkSpace для решения рабочих вопросов.

 Источник изображения: mail.ru

Источник изображения: mail.ru

«Mail.ru Агент» был запущен в 2003 году в качестве платформы для доступа к новостям, прогнозу погоды и поисковой строке. Чуть позже в нём появились уведомления о новых письмах. Осенью 2003 года в «Mail.ru Агент» были добавлены функции полноценного мессенджера. За два следующих года количество зарегистрированных пользователей выросло до полумиллиона, не в последнюю очередь за счёт популярности в то время портала Mail.ru

На протяжении многих лет «Mail.ru Агент» наряду с ICQ являлся одним из основных инструментов для общения и обмена файлами в России. По мере развития сервис превратился в универсальное средство связи. Короткие сообщения были дополнены отправкой SMS, звонками на городские и мобильные телефоны, а позднее — возможностью организовать видеоконференцию.

В 2008 году «Mail.ru Агент» был объединён с социальной сетью «Мой Мир», а затем получил поддержку протокола сервиса коротких текстовых сообщений ICQ. В июле 2024 года на сайте мессенджера было опубликовано сообщение о скором прекращении работы сервиса. Пользователям было рекомендовано сохранить важные данные и историю переписки на своих устройствах.

Ранее, 26 июня, стало известно о закрытии мессенджера IСQ, который Mail.ru, позже переименованная в VK, без особого успеха пыталась перезапустить в 2020 году. Приложение ICQ исчезло из магазинов App Store и Google Play. Немногочисленным пользователям было предложено использовать «VK Мессенджер».

ИИ-агенты Билла Гейтса: как новый виток в эволюции компьютерных технологий изменит повседневную жизнь человека

Билл Гейтс (Bill Gates), сооснователь корпорации Microsoft, в своём блоге поделился прогнозами о будущем ИИ и его роли в нашей повседневной жизни. Гейтс уверен, что в ближайшие 5 лет ИИ радикально изменит способы, которыми мы используем компьютеры и мобильные устройства.

 Источник изображения: Mohamed_hassan / Pixabay

Источник изображения: Mohamed_hassan / Pixabay

По мнению Гейтса, скоро не потребуется использовать отдельные приложения для различных задач. Вместо этого мы сможем обращаться к нашим устройствам на обычном языке, и они смогут обрабатывать наши запросы. Это станет возможным благодаря развитию персональных помощников на основе ИИ, которые будут значительно превосходить сегодняшние технологии.

Гейтс называет такие программы «агентами». Он предсказывает, что эти агенты не только изменят способ взаимодействия людей с компьютерами, но и радикально трансформируют индустрию ПО. Это будет самая значительная революция в вычислительной технике с момента перехода от ввода команд в компьютерном терминале к использованию графических интерфейсов.

Ключевым аспектом работы агентов является их способность узнавать пользователя как личность. Чем больше они узнают о вас, тем лучше смогут предвидеть ваши потребности и помогать вам. «Они проактивны, способны предлагать решения до того, как вы их запросите. Они работают через приложения, улучшаясь со временем, запоминая ваши действия и распознавая намерения и модели вашего поведения. На основе этой информации они предлагают то, что, по их мнению, вам нужно, хотя конечное решение всегда за вами», — пишет Гейтс.

Гейтс также затрагивает тему влияния ИИ на здравоохранение, образование, производительность, развлечения и другие сферы нашей повседневной жизни. В здравоохранении, например, агенты смогут помогать в базовой триажной диагностике и советах по лечению, а также помогать медицинским работникам в принятии решений. В образовании агенты будут дополнять работу учителей, персонализируя обучение для студентов и освобождая учителей от рутинных задач. В сфере производительности агенты будут помогать в различных задачах, таких как составление бизнес-планов или организация встреч. В развлечениях и покупках агенты будут не только делать рекомендации, но и помогать действовать в соответствии с ними. Гейтс видит ИИ как неотъемлемую часть каждого аспекта нашего существования.

В своём блоге Гейтс также высказывает мнение, что агенты станут следующей важной платформой в индустрии вычислительной техники. «Агенты смогут помочь практически в любой деятельности и любой области жизни. В индустрии компьютерных технологий мы говорим о платформах — технологиях, на которых строятся приложения и сервисы. Android, iOS и Windows — это платформы. Агенты станут следующей платформой», — утверждает Гейтс.


window-new
Soft
Hard
Тренды 🔥
ИИ научили генерировать тысячи модификаций вирусов, которые легко обходят антивирусы 12 мин.
В Epic Games Store стартовала новая раздача Control — для тех, кто дважды не успел забрать в 2021 году 23 мин.
За 2024 год в Steam вышло на 30 % больше игр, чем за прошлый — это новый рекорд 2 ч.
«Яндекс» закрыл почти все международные стартапы в сфере ИИ 2 ч.
Создатели Escape from Tarkov приступили к тестированию временного решения проблем с подключением у игроков из России — некоторым уже помогло 3 ч.
Веб-поиск ChatGPT оказался беззащитен перед манипуляциями и обманом 4 ч.
Инвесторы готовы потратить $60 млрд на развитие ИИ в Юго-Восточной Азии, но местным стартапам достанутся крохи от общего пирога 5 ч.
Selectel объявил о спецпредложении на бесплатный перенос IT-инфраструктуры в облачные сервисы 5 ч.
Мошенники придумали, как обманывать нечистых на руку пользователей YouTube 6 ч.
На Открытой конференции ИСП РАН 2024 обсудили безопасность российского ПО и технологий искусственного интеллекта 6 ч.