Сегодня 01 апреля 2025

18+

О сайте Реклама Рассылка Контакты

ии-агент

Теги → ии-агент

Быстрый переход

18:03 31.03.2025 Amazon представила ИИ-агента Nova Act, который заменит человека в интернет-серфинге
11:49 31.03.2025 Китайская Zhipu AI ворвалась в ИИ-гонку с бесплатным ИИ-агентом AutoGLM Rumination
09:05 31.03.2025 Apple добавит ИИ-врача в приложение «Здоровье» для iPhone
21:00 24.03.2025 Microsoft анонсировала ИИ-агентов для защиты людей от киберугроз
23:45 11.03.2025 OpenAI позволит всем желающим создавать ИИ-агентов, которые будут управлять ПК и гулять по интернету
14:29 11.03.2025 Китайский ИИ-проект Manus назван претендентом на лавры второго DeepSeek
06:04 04.03.2025 Opera представила концепт ИИ-функции, которая поможет пользователю совершать покупки
00:56 04.03.2025 Айфон по-немецки: Deutsche Telekom и Perplexity пообещали выпустить AI Phone c умелым ИИ-агентом
19:34 26.02.2025 «Интернет погрузится во тьму»: новомодные ИИ-агенты имеют шансы заменить привычный интернет
14:20 21.02.2025 Microsoft представила ИИ-агента Magma для управления приложениями и реальными роботами
11:40 20.02.2025 Rabbit показала в деле ИИ-агента, который так и не попал в ИИ-заменитель смартфона Rabbit R1
06:59 05.02.2025 Hugging Face выпустила открытый аналог OpenAI Deep Research для анализа информации по сотням сайтов
05:17 05.02.2025 Бывший руководитель Google DeepMind переманивает таланты в Microsoft для работы над ИИ
00:44 30.01.2025 Основатель Twitter представил открытую платформу Goose для создания ИИ-агентов
00:16 24.01.2025 OpenAI выпустила ИИ-агента Operator, который будет сидеть в интернете вместо пользователя

← В прошлое

Amazon представила ИИ-агента Nova Act, который заменит человека в интернет-серфинге

31.03.2025 [18:03], Сергей Сурабекянц

Amazon представила универсального ИИ-агента Nova Act, который может управлять веб-браузером и самостоятельно выполнять некоторые простые действия. В будущем Nova Act будет поддерживать все функции Alexa+ — обновлённого голосового помощника Amazon. Одновременно с агентом компания выпустила набор инструментов Nova Act SDK, который позволяет разработчикам создавать собственные прототипы агентов.

Источник изображения: Pixabay

Nova Act разработан недавно открытой в Сан-Франциско лабораторией AGI Amazon, возглавляемой бывшими исследователями OpenAI Дэвидом Луаном (David Luan) и Питером Аббелем (Pieter Abbeel). Amazon называет выпуск ИИ-агента «исследовательским предварительным просмотром». Разработчики уже сейчас могут получить доступ к набору инструментов Nova Act на специализированном ресурсе nova.amazon.com, который также служит «витриной» для различных моделей Nova Foundation от Amazon.

Nova Act — это попытка Amazon составить конкуренцию OpenAI Operator и Anthropic Computer Use с помощью технологии агентов ИИ общего назначения. Многие лидеры рынка искусственного интеллекта считают, что агенты ИИ, которые могут исследовать интернет по заданию пользователей, сделают чат-ботов ИИ значительно более полезными. Amazon рассчитывает, что распространённость Alexa+ обеспечит новому агенту широкий охват.

Разработчики, использующие Nova Act SDK, смогут автоматизировать базовые действия от имени пользователей, такие как заказ продуктов или бронирование столика в ресторане. С помощью Nova Act разработчики могут объединить инструменты, которые позволят ИИ-агенту перемещаться по веб-страницам, заполнять формы или выбирать даты в календаре.

По данным Amazon, Nova Act превосходит агентов от OpenAI и Anthropic в нескольких внутренних тестах компании. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %).

По мнению экспертов, основная проблема с недавно выпущенными ИИ-агентами от OpenAI, Google и Anthropic заключается в их низкой надёжности. Во многих тестах они работают медленно, с трудом принимают самостоятельные решения и склонны к ошибкам, которые человек бы не допустил. В скором времени станет ясно, удалось ли Amazon избавить свой продукт от этих недостатков.

Китайская Zhipu AI ворвалась в ИИ-гонку с бесплатным ИИ-агентом AutoGLM Rumination

31.03.2025 [11:49], Дмитрий Федоров

Китайская компания Zhipu AI, специализирующаяся на разработке систем искусственного интеллекта, представила ИИ-агента под названием AutoGLM Rumination. Новинка стала частью волны аналогичных проектов на фоне нарастающей конкуренции на китайском рынке ИИ. AutoGLM Rumination способен выполнять углублённые исследования, а также справляться с прикладными задачами, включая поиск информации в интернете, планирование путешествий и составление исследовательских отчётов.

Источник изображения: zhipuai.cn

Агент основан на моделях собственной разработки Zhipu AI. В их число входят рассуждающая ИИ-модель GLM-Z1-Air и базовая языковая модель GLM-4-Air-0414. Компания утверждает, что GLM-Z1-Air демонстрирует производительность, сопоставимую с моделью R1 компании DeepSeek, но работает в восемь раз быстрее и требует лишь одну тридцатую вычислительных ресурсов. Такие характеристики указывают на потенциальное снижение затрат на развёртывание и эксплуатацию ИИ-систем, что особенно важно на фоне масштабной интеграции нейросетей в экономику и государственное управление.

ИИ-агенты представляют собой автономные программные системы, способные принимать решения и выполнять широкий спектр задач без постоянного вмешательства пользователя. В начале 2025 года компания DeepSeek представила ИИ-модель, работающую при значительно меньших издержках, чем американские аналоги, что вызвало значительный интерес на рынке. На этом фоне китайские разработчики ускорили вывод отечественных решений в области ИИ.

Презентация Zhipu AI состоялась спустя несколько недель после заявления конкурирующей компании Manus, представившей своего ИИ-агента как первого в мире универсального ИИ-агента. В отличие от Manus, предлагающей продукт по подписке стоимостью до $199 в месяц, AutoGLM Rumination будет доступен бесплатно. Компания заявляет, что пользователи смогут получить доступ к ИИ-агенту через официальный сайт модели GLM и мобильное приложение.

Компания Zhipu AI была основана в 2019 году как самостоятельная организация, выделившаяся из исследовательской лаборатории при Университете Цинхуа (Tsinghua University) с целью коммерциализации разработок в области ИИ. За последние годы она заняла одно из ведущих мест среди китайских ИИ-стартапов. Zhipu AI известна разработкой серии моделей GLM, последняя из которых — GLM4 — по заявлению компании превосходит GPT-4 по ряду бенчмарков. Подробные данные о метриках и условиях тестирования не раскрываются.

Ранее в марте Zhipu AI провела три раунда финансирования при участии китайских государственных структур. Последние инвестиции поступили от администрации города Чэнду, которая вложила в компанию 300 млн юаней (около $41,5 млн). Участие региональных властей отражает стратегическую заинтересованность китайских городов в развитии ИИ-решений, особенно в условиях усиливающегося соперничества с иностранными разработками.

Apple добавит ИИ-врача в приложение «Здоровье» для iPhone

31.03.2025 [09:05], Дмитрий Федоров

Apple готовит к запуску полностью переработанную версию приложения «Здоровье», которая выйдет в составе обновления iOS 19.4. Проект, получивший кодовое название Mulberry, предусматривает создание нового цифрового консультанта по здоровью на основе ИИ.

Источник изображения: Curated Lifestyle / Unsplash

По данным журналиста Bloomberg Марка Гурмана (Mark Gurman), запуск ИИ-агента ожидается весной или летом 2026 года. Разработка ведётся при участии подразделения Apple по ИИ. Как отмечает Гурман, новый ИИ-консультант будет воспроизводить функции реального врача, используя информацию, собираемую устройствами Apple — преимущественно Apple Watch. Пользователь сможет получать персонализированные рекомендации, основанные на анализе физиологических данных. Это соответствует долгосрочной стратегии Тима Кука (Tim Cook), согласно которой основной вклад Apple в благополучие общества должен быть связан с развитием здравоохранения.

ИИ-агент обучается на данных, предоставленных врачами, нанятыми компанией Apple. Также планируется привлечение сторонних специалистов для записи видеоматериалов, которые будут интегрированы в приложение. В числе экспертов, с которыми предполагается сотрудничество, — кардиологи, диетологи, сомнологи, физиотерапевты и специалисты по психическому здоровью. Согласно информации Гурмана, видеоконтент будет использоваться для объяснения пользователям возможных неблагоприятных изменений в состоянии их здоровья. Эти материалы будут записываться в новой студии Apple, расположенной в Окленде, штат Калифорния.

Кроме того, Apple намерена привлечь известного врача, который станет ведущим нового сервиса и будет сопровождать образовательные видеоролики. Внутри компании эта инициатива получила неофициальное название Health+. Как сообщает Гурман, значительное внимание в обновлённом приложении будет уделено отслеживанию питания. Пользователи смогут фиксировать потребляемые продукты, а ИИ будет предоставлять рекомендации по рациону и корректировке пищевых привычек в зависимости от индивидуальных физиологических показателей.

Также ведётся работа над функцией, использующей заднюю камеру iPhone для анализа тренировок. ИИ будет отслеживать движения пользователя и предлагать рекомендации по улучшению техники выполнения упражнений. Предполагается, что впоследствии эта функция будет интегрирована в экосистему Apple Fitness+.

Microsoft анонсировала ИИ-агентов для защиты людей от киберугроз

24.03.2025 [21:00], Анжелла Марина

Microsoft добавит в Security Copilot ИИ-агентов для автоматизации рутинных задач и повышения эффективности работы специалистов по кибербезопасности. Всего представлено шесть агентов непосредственно от Microsoft и пять агентов, созданных партнёрами, сообщает The Verge.

Источник изображения: Lewis Kang'ethe Ngugi / Unsplash

Security Copilot на базе искусственного интеллекта (ИИ) был запущен год назад, но теперь Microsoft решила масштабировать этот сервис. Новые агенты появятся в тестовом режиме уже в следующем месяце. Они смогут анализировать фишинговые атаки, предупреждать о возможных утечках данных, расставлять приоритеты среди серии критических инцидентов и отслеживать уязвимости.

Как отметила Васу Джаккал (Vasu Jakkal), корпоративный вице-президент Microsoft Security, ИИ-агенты будут интегрированы с инструментами Microsoft Security и позволят командам автономно справляться с большим объёмом задач. Помимо этого, Microsoft улучшит защиту от фишинга в Microsoft Teams: уже в следующем месяце Defender for Office 365 начнёт блокировать вредоносные ссылки и вложения в сообщениях Teams, что усилит защиту пользователей от киберугроз.

Использование ИИ-агентов становится всё более популярным среди крупных компаний. В связи с этим Microsoft уже перезапустила свой Copilot для бизнеса, предложив бесплатного чат-бота и доступ к ИИ-агентам по модели оплаты «по мере использования».

Стоит отметить, что помимо собственных разработок Microsoft сотрудничает с рядом компаний, включая OneTrust, Aviatrix, BlueVoyant, Tanium и Fletch. Их решения позволят, в частности, анализировать утечки данных с помощью OneTrust и выявлять причины сбоев в сетях с Aviatrix.

Microsoft также готовит новые анонсы в сфере безопасности, которые будут представлены на мероприятии Microsoft Secure 9 апреля. Дополнительную информацию можно найти в официальном блоге компании.

OpenAI позволит всем желающим создавать ИИ-агентов, которые будут управлять ПК и гулять по интернету

11.03.2025 [23:45], Анжелла Марина

Компания OpenAI представила инструмент для разработчиков, который упростит создание ИИ-агентов. Ключевым элементом здесь является новый интерфейс Responses API, который представляет из себя блоки в виде готовых решений для автоматизации рутинных процессов, таких как поиск в интернете, анализ файлов и выполнение задач на компьютере от имени пользователя.

Источник изображения: Zac Wolff / Unsplash

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) заявил, что компания видит в ИИ-агентах большое будущее. По его словам, OpenAI готова разрабатывать собственных агентов, таких как Deep Research и Operator, но учитывая сложность современного мира и разнообразие технологий, хочет предоставить разработчикам базовые инструменты для создания агентов под их уникальные задачи.

Responses API оснащён поисковым инструментом, использующим ту же ИИ-модель, что и ChatGPT. Работая на основе GPT-4o и GPT-4o mini, инструмент позволяет получать актуальную информацию из интернета с указанием источников, а также выполнять задачи на компьютере через модель Operator. При этом функция поиска по файлам может быть полезна совершенно для любых целей, например, для автоматизации работы службы поддержки компаний или юридического анализа документов.

Дополнительно OpenAI представила Agents SDK. Это инструмент для управления работой ИИ-агентов. Продукт-менеджер OpenAI Никандж Ханда (Nikunj Handa) пояснил, что Responses API выполняет отдельные задачи, а Agents SDK позволяет координировать работу нескольких агентов для того, чтобы они могли решать более сложные задачи совместно. По мнению компании, это должно упростить процесс управления агентами, а заодно повысить их эффективность.

Отметим, что нововведение дополнит уже существующие решения OpenAI, включая Chat Completions API для ответов на запросы пользователей. Кроме того, компания планирует к середине 2026 года отказаться от текущего Assistants API в пользу новой системы Responses API.

Китайский ИИ-проект Manus назван претендентом на лавры второго DeepSeek

11.03.2025 [14:29], Павел Котов

Уже не первый месяц ведущие американские разработчики систем искусственного интеллекта рассказывают о создании сложных агентов ИИ, способных выполнять от имени пользователя некоторые задачи. Малоизвестный китайский проект Manus AI утверждает, что сумел опередить заокеанских конкурентов, передаёт Bloomberg.

Источник изображения: manus.im

На минувшей неделе Manus представил универсальный агент ИИ — сервис, который просматривает резюме, создаёт маршруты поездок и анализирует положение на рынке ценных бумаг по команде пользователя. По некоторым критериям эта служба выступает лучше, чем OpenAI Deep Research, уверяют в китайской компании. Современные ИИ-агенты пока требуют значительного присутствия пользователя, тогда как система Manus «по-настоящему автономна», считает главный научный сотрудник проекта Ичао Цзи (Yichao Ji). Яркая видеодемонстрация компании быстро стала вирусной и породила ажиотажный спрос на приглашения, дающие право на участие в тестировании сервиса. Manus сравнили с DeepSeek — другим китайским стартапом, который в январе выпустил модель ИИ, способную конкурировать с ведущими американскими решениями. Вот и Manus подняла вопросы о лидерстве США в области ИИ, причём в категории продуктов, которую американские компании считают ключевой.

Первые отзывы о работе ИИ-агента Manus оказались неоднозначными. Профессор Дерья Унутмаз (Derya Unutmaz), исследователь в области иммунотерапии в онкологии, похвалил систему за высокое качество результатов, но отметил, что она обрабатывает задачи медленнее, чем OpenAI Deep Research. Он не единственный пожаловался на скорость — многие отметили, что сервис работает медленно и часто зависает до завершения задачи. Возможно, виной тому ограниченные вычислительные ресурсы компании. В некоторых случаях отмечаются и фактические ошибки в ответах ИИ-агента. «В действительности Manus является лишь наполовину готовым продуктом», — считает опробовавший сервис американский профессор электротехники и вычислительной техники Йиран Чен (Yiran Chen). Архитектура системы пока неизвестна, нет ясности, в какой степени в ней задействованы модели других разработчиков ИИ, ведь создание собственной модели обошлось бы компании в десятки миллионов долларов.

Стоящая за проектом Manus компания Butterfly Effect привлекла инвестиции в размере более $10 млн, сообщили несколько китайских СМИ. В отличие от DeepSeek стартап Manus не опубликовал подробной документации и не рассказал, как был разработан агент. Не публиковался ни код сервиса, ни веса моделей ИИ. Пользователь службы может выбирать между стандартным режимом и режимом «большого усилия» — в последнем случае запросы обрабатываются медленнее. Manus «создаёт список задач, один за другим проходит шаги, устраняет возникающие проблемы, задаёт вопросы, если нужны новые команды», и выдаёт ответ, прокомментировал механизм работы системы основатель OmniEdge Юн Цянь (Yong Qian).

ИИ-агентами сейчас занимаются OpenAI, Anthropic и другие отраслевые компании — эти системы выходят в интернет, изучают источники онлайн и выполняют различные многошаговые задачи. Первые пользователи Manus считают, что китайская система вполне способна конкурировать с присутствующими на рынке.

Opera представила концепт ИИ-функции, которая поможет пользователю совершать покупки

04.03.2025 [06:04], Анжелла Марина

Разработчик браузеров Opera продемонстрировал новую функцию на основе искусственного интеллекта под названием Browser Operator. Пользователи смогут доверять ИИ выполнение таких задач, как, например, поиск товаров, бронирование отелей и покупку билетов. В самой компании эту функцию расценивают как шаг вперёд и считают сменой парадигмы веб-серфинга.

Источник изображения: Denny Müller / Unsplash

Browser Operator выполняет задачи, которые обычно требуют ручного поиска, анализируя данные и предлагая пользователям оптимальные варианты. При этом в компании утверждают, что обработка информации происходит исключительно локально, без передачи данных в облако. Для взаимодействия с системой нужно просто ввести запрос в небольшом окне в нижней части экрана, поясняет PCWorld.

В ходе презентации был продемонстрирован запрос: «Найди мне 12 пар белых носков Nike, которые я смогу купить прямо сейчас». Браузер тут же провёл поиск, разбил задачу на этапы и предложил подходящие варианты. Аналогичным образом были найдены билеты на футбольный матч, а затем подобраны авиабилеты и отель на нужные даты.

Важно отметить, что ИИ-оператор не совершает непосредственно за пользователя покупки, то есть не завершает транзакции, а останавливается на экране оформления. Как заявляют в Opera, это связано с вопросами безопасности и необходимого доверия к системе. Интересно, что пока не уточняется, будет ли эта функция платной, однако разработчики отмечают, что она точно потребует значительных вычислительных ресурсов, что может служить определённым намёком.

Browser Operator уже сейчас доступен в виде предварительной версии. Официальный же запуск ожидается в рамках программы AI Feature Drop, однако точные сроки выхода не названы.

Айфон по-немецки: Deutsche Telekom и Perplexity пообещали выпустить AI Phone c умелым ИИ-агентом

04.03.2025 [00:56], Анжелла Марина

Крупнейшая в Европе немецкая телекоммуникационная компания Deutsche Telekom (DT) разрабатывает среднебюджетный смартфон AI Phone на базе искусственного интеллекта в тесном сотрудничестве с Perplexity, а также другими технологическими компаниями, включая Picsart. AI Phone сможет не только отвечать на вопросы, но и выполнять за пользователя различные действия.

Источник изображений: Deutsche Telekom

Член правления Deutsche Telekom Клаудия Немат (Claudia Nemat) заявила, что компания активно трансформируется в ИИ-компанию, при этом подчеркнув, что DT не занимается созданием собственных языковых моделей, а сосредоточена на разработке ИИ-агентов. Как сообщает TechCrunch, ИИ-ассистент смартфона получит название Magenta AI.

Ключевым партнёром проекта выступит стартап Perplexity, специализирующийся на генеративном поиске. Генеральный директор компании Аравинд Шринивас (Aravind Srinivas) заявил, что Perplexity, делая шаг вперёд «переходит от простой машины ответов к машине действий». По его заверениям, система сможет бронировать билеты, отправлять сообщения и даже совершать звонки от имени пользователя.

Отметим, что попытки сотовых операторов связи выйти на рынок смартфонов не так уж новы. Ранее создать альтернативу Apple и Google попыталась компания Amazon со своим первым смартфоном Fire Phone, но он не смог завоевать популярность. Однако текущая волна интереса к искусственному интеллекту определённо даёт операторам новый шанс привлечь пользователей с помощью инновационных функций.

Интересно, что сотрудничество DT и Perplexity началось ещё в апреле 2024 года, а первые упоминания об стройстве AI Phone появились на крупнейшей выставке мобильных технологий — MWC 2023. Детали AI Phone пока не раскрываются, включая технические характеристики, операционную систему и производителя. Однако рендеры указывают, что смартфон, скорее всего, будет работать на модифицированной версии Android.

Устройство будет представлено во второй половине 2025 года, а в продажу поступит в 2026 году по цене менее $1000. Первоначально смартфон будет ориентирован на европейский рынок, сообщили представители DT.

«Интернет погрузится во тьму»: новомодные ИИ-агенты имеют шансы заменить привычный интернет

26.02.2025 [19:34], Владимир Мироненко

Некоторые аналитики назвали 2025-й годом агентов ИИ — персонализированных цифровых помощников, которые могут взаимодействовать с пользователями, проводить исследования, собирать информацию, курировать контент и т.д. Как утверждают аналитики Bernstein, «если агенты ИИ действительно станут полезными, интернет погрузится во тьму».

Источник изображения: Growtika/unsplash.com

Веб-сайты и приложения не исчезнут, но потребители перестанут посещать их напрямую, поскольку будут получать доступ к информации, контенту и виджетам через помощника ИИ, который станет «агрегатором агрегаторов», говорят аналитики. Если агент ИИ сможет, например, вызвать такси, пользователям не понадобится открывать приложение для заказа поездки, утверждают они.

Агенты ИИ, представляющие пользователей, станут новым прямым каналом, который технологические компании будут использовать для связи с потребителями. Все остальные поставщики будут направляться через этот новый цифровой шлюз и, вероятно, должны будут платить какой-то сбор — так же, как Google зарабатывает на поисковой рекламе, а Apple — на комиссиях в App Store, пишет Business Insider.

Крупные технологические компании и стартапы уже сейчас сражаются за контроль над этим перспективным сегментом ИИ-рынка. В конце января OpenAI представила ИИ-агента Operator, который использует веб-браузер для выполнения действий от имени пользователей, например бронирования билетов или покупки продуктов.

Ключевой момент заключается в том, что теперь взаимодействие идёт напрямую между ИИ-агентом и пользователем, тогда как раньше приходилось прибегать к поиску Google. В будущем Google может стать всего лишь одним из многих сервисов, доступных в экосистеме агентов ИИ, которую разрабатывает OpenAI.

Разумеется, Google не намерен превращаться в ещё одно приложение на платформе конкурентов. В декабре прошлого года компания представила Project Mariner — ИИ-агента, способного выполнять действия в интернете от лица пользователя: просматривать веб-страницы, нажимать кнопки и заполнять формы. А ещё раньше, в октябре, Anthropic представила похожий инструмент в тестовом режиме, позволяющий её модели ИИ Claude 3.5 Sonnet взаимодействовать с любыми десктопными приложениями, имитируя нажатия клавиш, клики и жесты мыши — то есть управлять ПК так же, как это делают люди.

Также агентами ИИ можно будет управлять голосом, например с помощью умных очков от Meta✴, или даже мысленно — используя мозговые импланты, такие как Neuralink Илона Маска (Elon Musk).

Microsoft представила ИИ-агента Magma для управления приложениями и реальными роботами

21.02.2025 [14:20], Владимир Фетисов

Разработчики из Microsoft Research представили мультимодальную языковую ИИ-модель Magma, которая способна обрабатывать визуальные и текстовые данные для управления программными интерфейсами и роботизированными системами. Если алгоритм после тестирования выйдет за пределы Microsoft, то это может стать важным шагом на пути к созданию универсального мультимодального ИИ, способного работать как в цифровом, так и в реальном пространстве.

Деомнтсрация того, как Magma управляет роботизированной рукой / Источник изображения: Microsoft Research

Демонстрация того, как Magma управляет роботизированной рукой / Источник изображения: Microsoft Research

Microsoft утверждает, что Magma является первой ИИ-моделью, которая способна не только обрабатывать мультимодальные данные (например, текст, изображения, видео), но и умеет выполнять действия на их основе, будь то навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Разработка алгоритма Magma велась совместными усилиями разработчиков из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Ранее уже были реализованы проекты в сфере робототехники, основой которых становились большие языковые модели (LLM). К таким работам можно отнести проекты PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, где ИИ-системы были задействованы для управления программными интерфейсами.

Комбинированный график, демонстрирующий возможности Magma / Источник изображения: Microsoft Research

Комбинированная схема, демонстрирующая возможности Magma / Источник изображения: Microsoft Research

В отличие от многих уже созданных мультимодальных алгоритмов, требующих использования отдельных моделей для восприятия и управления, в Magma эти способности объединены внутри единой базовой ИИ-модели. Microsoft позиционирует Magma, как существенный шаг на пути создания единого ИИ-агента, т.е. системы, способной автономно разрабатывать планы действий и выполнять многоэтапные задачи от имени человека, а не просто отвечать вопросы о том, что она видит.

«Учитывая описанную цель, Magma способна формулировать планы и выполнять действия для их достижения. Эффективно передавая знания, извлекаемые из свободно доступных визуальных и языковых данных, Magma объединяет вербальный, пространственный и временной алгоритмы для навигации по сложным задачам и обстановке», — говорится в сообщении исследователей из Microsoft.

Источник изображения: Microsoft Research

ИИ-модель Magma включает в себя два технических компонента: Set-of-Mark (идентифицирует объекты, которыми можно манипулировать в среде, присваивая цифровые метки интерактивным элементам, таким как нажимаемые кнопки в пользовательском интерфейсе или захватываемые объекты в рабочем пространстве роботов) и Trace-of-Mark (позволяет алгоритму выполнять такие задачи, как навигация по пользовательским интерфейсам или управление роботизированными руками для захвата и перемещения объектов).

Один из участников проекта рассказал, что название алгоритма Magma расшифровывается как M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch). В описании алгоритма Microsoft утверждает, что Magma-8B демонстрирует конкурентоспособные результаты в бенчмарках, показывая высокие результаты в задачах навигации по пользовательскому интерфейсу и манипулировании роботами.

Так в бенчмарке VQAv2 алгоритм Magma получил 80,0 баллов за визуальные ответы на вопросы, что выше результата GPT-4V (77,2 балла), но ниже показателя LLaVA-Next (81,8 балла). Показатель алгоритма POPE в 87,4 балла в настоящее время является абсолютно лучшим среди ИИ-моделей, участвовавших в сравнении. Отмечается, что в сфере манипулирования роботами Magma превосходит OpenVLA.

Источник изображения: Microsoft Research

По заявлениям разработчиков, Magma отличается от аналогов вроде GPT-4V тем, что выходит за рамки так называемого «вербального интеллекта» и включает в себя «пространственный интеллект», т.е. возможность планирования и выполнения действий. Обучаясь на смеси изображений, видео, робототехнических данных и взаимодействий с пользовательским интерфейсом, Magma, по сути, является полноценным мультимодальным ИИ-агентом, а не просто перцептивной моделью.

Как и все ИИ-модели, Magma не совершенна. Документация Microsoft указывает на то, что алгоритм по-прежнему сталкивается с техническими ограничениями при принятии сложных пошаговых решений, требующих многократного выполнения действий в течение определённого времени. Microsoft продолжает работать над улучшением алгоритма. Софтверный гигант намерен выложить исходный код Magma и другую документацию на GitHub, чтобы сторонние исследователи могли использовать эти наработки для реализации собственных проектов.

Rabbit показала в деле ИИ-агента, который так и не попал в ИИ-заменитель смартфона Rabbit R1

20.02.2025 [11:40], Дмитрий Федоров

Компания Rabbit представила новую версию ИИ-агента, предназначенного для управления приложениями в среде Android. Опубликованный видеоролик демонстрирует, как агент взаимодействует с интерфейсами мобильных приложений, выполняя запросы. Однако эти функции изначально были обещаны для устройства Rabbit R1, которое так и не получило заявленных возможностей.

Источник изображения: Rabbit

Разработка основана на ранее представленной платформе LAM Playground — универсальном веб-агенте, выпущенном в 2023 году. В видеоролике инженеры демонстрируют, как система выполняет команды, аналогичные тем, что более года назад были анонсированы для Rabbit R1. Однако сам R1, несмотря на маркетинговые заявления основателя и генерального директора компании Rabbit Джесси Лю (Jesse Lyu) в январе 2024 года, не поддерживает этих возможностей.

В ходе демонстрации инженеры вводят текстовые команды в интерфейс на ноутбуке, после чего ИИ-агент интерпретирует их и выполняет соответствующие действия на планшете с Android. Система находит видео на YouTube, ищет рецепты коктейлей, извлекает список ингредиентов, добавляет их в Google Keep. В определённый момент инженеры просят ИИ-агента загрузить игру-головоломку 2048 и разобраться, как в неё играть. Агент успешно справляется с задачей, хотя процесс выполнения оказывается довольно медленным.

Несмотря на общую работоспособность системы, в ходе тестирования были выявлены ошибки. Например, при отправке стихотворения через WhatsApp ИИ-агент разбивал текст на отдельные сообщения вместо того, чтобы отправить его единым блоком. Один из инженеров предположил, что причиной может быть отсутствие разрывов строк в запросе, однако команда не стала это перепроверять. Подобные недочёты указывают на необходимость дальнейшей доработки алгоритмов взаимодействия ИИ-агента с интерфейсами мобильных приложений.

В своём блоге Rabbit подчеркнула, что показанная функциональность охватывает лишь базовый цикл операций, выполняемых ИИ-агентом в среде Android. Разработка находится на ранней стадии, и её возможности будут расширяться в рамках будущих обновлений. Кроме того, компания ведёт работу над созданием мультиагентной системы, которая обеспечит кроссплатформенную совместимость и поддержку более сложных сценариев автоматизации. Подробности о технической архитектуре и возможностях продукта Rabbit планирует раскрыть в ближайшие недели.

Hugging Face выпустила открытый аналог OpenAI Deep Research для анализа информации по сотням сайтов

05.02.2025 [06:59], Анжелла Марина

Команда разработчиков Hugging Face объявила о создании открытой версии инструмента Deep Research, представленного компанией OpenAI. Этот инструмент, получивший похожее название Open Deep Research, является альтернативой разработке OpenAI, которая пока доступна лишь ограниченному кругу пользователей по платной подписке.

Источник изображения: Hugging Face

OpenAI Deep Research, представленный буквально на днях, позволяет собирать исследовательские отчёты по любой теме, анализируя данные в интернете. Однако его использование доступно только подписчикам ChatGPT Pro за $200 в месяц. В ответ на это команда Hugging Face разработала своего ИИ-агента под названием Open Deep Research, который использует модель OpenAI o1 и открытую фреймворк-систему, помогающую ИИ планировать анализ данных и взаимодействовать с поисковыми системами. Как сообщает TechCrunch, ссылаясь на слова разработчиков, модель превосходит по результатам «рассуждающие» аналоги, в частности DeepSeek R1.

Новый инструмент способен автономно перемещаться по сети, используя простой текстовой браузер (отображает только текст веб-страницы, игнорируя графический контент) и набор инструментов для анализа текста. Исследователи утверждают, что Open Deep Research может прокручивать страницы, манипулировать файлами и даже выполнять вычисления с данными. В тестах бенчмарка GAIA, оценивающем ИИ-ассистентов общего назначения, проект получил 54 %, что немного уступает результату оригинального Deep Research от OpenAI — 67,36%.

В попытке протестировать Open Deep Research журналист TechCrunch столкнулся с техническими проблемами из-за высокой нагрузки на сервер. Однако разработчики заверили, что продолжают работать над улучшением производительности модели и уже выложили исходный код на GitHub, чтобы получать обратную связь от сообщества.

Интересно, что несмотря на появление множества попыток воспроизвести OpenAI Deep Research, ни одна из открытых моделей пока не может сравниться с оригиналом, так как не использует модель o3. Эта ИИ-модель остаётся лидером в задачах, связанных с ответами на сложные вопросы и сбором информации, а её API интерфейс, в отличие от модели OpenAI o3-mini, недоступен. По мнению экспертов, пока подобная модель не появится в открытом доступе, альтернативы вроде Open Deep Research вряд ли смогут полностью конкурировать с оригинальной разработкой.

Бывший руководитель Google DeepMind переманивает таланты в Microsoft для работы над ИИ

05.02.2025 [05:17], Анжелла Марина

Глава подразделения искусственного интеллекта в Microsoft Мустафа Сулейман (Mustafa Suleyman) в стремлении укрепить позиции компании в разработке интерактивных ИИ-агентов расширяет команду Microsoft, переманивает ключевых специалистов из Google, включая создателей технологии «Audio Overviews». Бывшие коллеги Сулеймана из DeepMind, откуда он ушёл в 2022 году, будут привлечены для работы над проектом по созданию мультимодальных моделей для обработки текста, звука и видео.

Источник изображения: Copilot

Как сообщает Financial Times, в числе новых сотрудников Microsoft оказались Марко Тальясаччи (Marco Tagliasacchi) и Залан Боршош (Zalán Borsos), создатели функции «Audio Overviews», позволяющей преобразовывать текст в аудио в стиле увлекательного подкаста. Эти исследователи также участвовали в разработке Astra — перспективного ИИ-агента DeepMind, способного отвечать на вопросы в режиме реального времени с использованием видео, аудио и текста.

К команде также присоединился Маттиас Миндерер (Matthias Minderer). Он займётся развитием возможностей ИИ для анализа изображений. Все трое будут работать в новом исследовательском центре Microsoft в Цюрихе и, по словам источника, знакомого с ситуацией, сыграют ключевую роль в разработке следующего поколения Copilot, на основе которого будут создаваться интерактивные ИИ-агенты, способные к выполнению широкого спектра задач.

Относительно кадровых потерь такого уровня Google DeepMind комментарии не дал. Однако отмечается, что переход этих специалистов из Google DeepMind в Microsoft является частью ожесточённой борьбы за таланты в сфере ИИ. При этом, обе компании остаются ключевыми игроками в разработке мультимодальных ИИ-моделей, которые способны анализировать и понимать контент на основе аудио, видео или изображений.

На фоне этой конкурентной гонки другие компании также не отстают — OpenAI представила голосовой режим для ChatGPT, Amazon внедряет ИИ в свой голосовой помощник Alexa. Google также готовится к выпуску голосового агента Astra в 2025 году.

Основатель Twitter представил открытую платформу Goose для создания ИИ-агентов

30.01.2025 [00:44], Анжелла Марина

Сооснователь и бывший генеральный директор Twitter Джек Дорси (Jack Dorsey) вернулся в мир технологий с новым проектом, запустив платформу под названием Goose для создания ИИ-агентов. Этот инструмент, разработанный его компанией Block, представляет собой бесплатную и открытую среду, упрощающую работу с большими языковыми моделями (LLM) от OpenAI, Google, Anthropic и других компаний.

Платформа ориентирована на автоматизацию задач в сфере программной инженерии и, как пишет издание VentureBeat, Goose уже используется для таких целей, как миграция кода с одного языка на другой, например, с Ember на React, с Ruby на Kotlin, с Prefect-1 на Prefect-2 и т. д. Также платформа применяется для создания API, проведения тестов производительности, настройки мониторинга и оптимизации баз данных. Проще говоря, Goose помогает разработчикам справляться с рутинными задачами, высвобождая время для более значимой работы.

Ключевой особенностью сервиса является возможность работы сразу с несколькими системами и приложениями. Вице-президент компании Джеки Бросамер (Jackie Brosamer) подчеркнула, что система позволяет интегрировать различные инструменты, такие как Google Drive и Slack, для сбора данных, их обобщения и выполнения действий от имени пользователя. Это особенно полезно для тех, кто проводит много времени на встречах и нуждается в автоматизации рабочих процессов.

Goose распространяется по лицензии Apache 2.0, предоставляя разработчикам полную свободу для коммерческих и исследовательских целей. Главный технический директор Block Дханджи Прасанна (Dhanji Prasanna) отметил, что открытая архитектура платформы вдохновляет на инновации. «Наша open-source платформа позволит разработчикам из разных отраслей создавать новые решения, экономя время и повышая их креативность. Мы уже видим, как Goose избавляет наших инженеров от рутинных задач», — сказал он.

Кроме того, модульная структура Goose позволяет легко интегрировать платформу в существующие системы и адаптировать её под конкретные задачи. Разработчики могут выбирать любую языковую модель, которая лучше всего подходит для их нужд, начиная от моделей OpenAI и заканчивая решениями других компаний.

Goose также поддерживает стандарт Model Context Protocol (MCP), разработанный совместно с компанией Anthropic. Этот стандарт позволяет платформе подключаться к различным инструментам и средам разработки. В Block уверены, что совместные усилия с сообществом разработчиков приведут к созданию новых интеграций и функций, расширив возможности платформы.

Примечательно, что Goose делает особый акцент на конфиденциальности и безопасности данных. Пользователи могут размещать её на своих локальных серверах или в виртуальном облаке. Подчёркивается, что компания не передаёт данные через собственные серверы, что особенно важно для финансовых структур, заботящихся о защите информации своих клиентов. Более подробная информация о платформе доступна на её странице в GitHub.

OpenAI выпустила ИИ-агента Operator, который будет сидеть в интернете вместо пользователя

24.01.2025 [00:16], Анжелла Марина

Компания OpenAI представила «исследовательскую версию» ИИ-агента, который может самостоятельно выполнять различные задачи в интернете по запросу пользователя. Например, его можно попросить найти авиабилеты или подобрать товар. Виртуальный помощник, получивший имя Operator, может посещать веб-страницы и взаимодействовать с ними, используя ввод текста, клики и прокрутку.

Источник изображения: OpenAI

В основе этого ИИ-агента лежит модель Computer-Using Agent, объединяющая возможности визуального восприятия модели GPT-4o и «продвинутое рассуждение посредством обучения с подкреплением», что позволяет ИИ взаимодействовать с графическими интерфейсами. Как пишет The Verge, Operator анализирует код веб-страниц и взаимодействует с контентом посредством виртуальной мыши и клавиатуры, что позволяет ему работать без интеграции с программным интерфейсом API (Application programming interface).

Примечательно, что ИИ-агент обладает способностью к самокоррекции и, в случае возникновения каких-либо сложностей, передаёт управление пользователю. Также ему понадобится разрешение человека при необходимости ввода конфиденциальных данных, таких как логины и пароли, в том числе на отправку электронных писем. В OpenAI также подчёркивают, что Operator разработан таким образом, чтобы «отклонять вредоносные запросы и блокировать запрещённый контент».

Однако компания предупреждает, что инструмент пока работает не идеально. Например, возникают определённые трудности с более сложными интерфейсами, такими как создание слайд-шоу или управление календарём.

На данный момент новый ИИ-агент доступен только в США для подписчиков ChatGPT Pro стоимостью $200 в месяц, однако в будущем планируется расширить доступ к Operator для пользователей других тарифных планов, включая Plus, Team и Enterprise. Также компания намерена интегрировать возможности нового агента непосредственно в ChatGPT, чтобы сделать его ещё удобнее.

← В прошлое

✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

выдано Федеральной Службой по надзору за соблюдением законодательства в сфере массовых коммуникаций и охране культурного наследия

При цитировании документа ссылка на сайт с указанием автора обязательна. Полное заимствование документа является нарушением
российского и международного законодательства и возможно только с согласия редакции 3DNews.