Сегодня 24 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии-помощник
Быстрый переход

Anthropic выпустила мощную текстовую нейросеть Claude 3.5 Haiku — она вчетверо дороже флагманской Claude 3 Opus

Anthropic обновила свой чат-бот Claude, добавив большую языковую модель 3.5 Haiku. Новая нейросеть превосходит по производительности предыдущие версии, но и использование её будет обходиться дороже. При этом модель предлагает улучшенную генерацию текста, но пока не поддерживает анализ изображений.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Издание TechCrunch подтверждает, что модель, начиная со вчерашнего дня доступна в веб-версии Claude и на мобильных устройствах. Впервые представленная в ноябре, Claude 3.5 Haiku по некоторым тестам показывает результаты, равные или даже превосходящие флагманскую модель Anthropic, Claude 3 Opus. По словам компании, новинка идеально подходит для рекомендаций по программированию, извлечению и классификации данных, а также модерации контента. В отличие от своего предшественника, эта версия способна генерировать более длинные текстовые фрагменты и в неё заложена более свежая информации.

Однако в Claude 3.5 Haiku отсутствует поддержка анализа изображений, что ставит версию в невыгодное положение по сравнению с другими моделями Anthropic, такими как Claude 3 Haiku и 3.5 Sonnet. Релиз также вызвал определённую реакцию из-за изменения ценовой политики. Первоначально Anthropic заявляла, что стоимость новой модели будет такой же, как у её предшественника. Однако позже компания пересмотрела свою позицию, объяснив высокую стоимость улучшенными интеллектуальными возможностями новинки. «Во время финального тестирования мы обнаружили, что Haiku превзошёл Claude 3 Opus по многим показателям. В результате мы увеличили цену модели 3.5 Haiku, чтобы отразить её возможности», — заявила компания в своём посте на платформе X.

Стоимость использования Claude 3.5 Haiku начинается с $1 за миллион входных токенов (примерно 750 000 слов) и $5 за миллион выходных токенов. Для сравнения, использование Claude 3 Haiku обходится в 25 центов за миллион входных токенов и $1,25 за миллион выходных, что делает новую модель в четыре раза дороже. Несмотря на это, Anthropic продолжает предлагать Claude 3 Haiku как более экономичное решение с поддержкой анализа изображений. «Claude 3 Haiku останется доступным для пользователей, которым важна максимальная экономичность и функциональность обработки изображений», — отметил глава отдела по работе с разработчиками Алекс Альберт (Alex Albert).

Несмотря на критику из-за роста цен, Anthropic подчёркивает, что Claude 3.5 Haiku обладает улучшенными возможностями генерации текста и может ссылаться на более актуальные события. Однако повышение стоимости для модели в рамках одной серии, как отмечает TechCrunch, редкая практика в индустрии, которая ставит вопрос в плане дальнейшей стратегии ценовой политики компании на её продукты.

Google показала ИИ-агента, который помогает проходить игры, наблюдая за действиями игрока

Google представила новую версию платформы искусственного интеллекта Gemini 2.0, с помощью которой можно создавать ИИ-агентов для советов и подсказок в видеоиграх. Агенты способны анализировать игровой процесс и предлагать оптимальные стратегии, а пользователи смогут получать рекомендации в режиме реального времени.

 Источник изображения: Supercell, theverge.com

Источник изображения: Supercell, theverge.com

Как сообщают в блоге компании генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) и технический директор Корай Кавукчуоглу (Koray Kavukcuoglu), агенты «делают выводы об игре, основываясь исключительно на действиях на экране, и предлагают решения в режиме реального времени». Кроме того, они могут использовать поиск Google по базам знаний для предоставления более полной информации. Агенты уже тестируются в популярных играх, таких как Clash of Clans и Hay Day от Supercell. Однако, как пишет The Verge, технология находится на ранней стадии разработки, и пока не ясно, насколько полезными такие наставники окажутся для игроков.

Помимо помощи в видеоиграх, Google развивает и другие направления применения Gemini 2.0. Например, ведётся работа над проектом Genie 2, который создаёт виртуальные игровые миры на основе лишь одного изображения. Пока эти миры остаются стабильными только около минуты, однако эксперты видят большой потенциал технологии.

Также компания представила мультимодальные возможности Gemini 2.0 Flash, которые уже доступны разработчикам через API в Google AI Studio и Vertex AI. Новая версия отличается высокой скоростью работы, улучшенной обработкой данных и способностью генерировать изображения и текст, а также преобразовывать текст в речь на нескольких языках. Эти функции уже тестируются ранними партнёрами, а в январе платформа станет доступна широкой аудитории.

Среди других проектов можно выделить Project Astra, Mariner и Jules. Project Astra, созданный для использования на Android-устройствах, был улучшен с помощью Gemini 2.0. Теперь ассистент на базе Astra может разговаривать на нескольких языках, использовать Google Search, Maps и Lens, а также запоминать больше данных, сохраняя при этом конфиденциальность. Project Mariner исследует, как ИИ может помогать в браузере, распознавая текст, изображения, код и другие элементы интерфейса, а Jules предназначен для помощи разработчикам в их рабочих процессах на GitHub.

ИИ-агенты также могут применяться в физическом мире. Исследования Google показывают, что Gemini 2.0 способен использовать пространственное мышление в робототехнике. Хотя эти разработки находятся на ранней стадии, сама компания видит большой потенциал в создании агентов, которые способны взаимодействовать с реальной средой.

Чтобы минимизировать риски и обеспечить безопасность своих ИИ-сервисов, компания проводит масштабные тестирования, сотрудничает с доверенными тестировщиками и внешними экспертами. В ближайшем будущем Google планирует интегрировать возможности Gemini 2.0 во все свои продукты, включая мобильное приложение Gemini.

Google Gemini сможет управлять приложениями без пользователя и даже не открывая их

Система искусственного интеллекта Google Gemini получит новые возможности благодаря API App Functions, который позволяет выполнять действия в приложениях без их открытия. По данным The Verge, новая функция обнаружена в коде Android 16 для разработчиков и может стать доступна для всех пользователей уже в следующем году.

 Источник изображения: Solen Feyissa / Unsplash

Источник изображения: Solen Feyissa / Unsplash

Функция App Functions, основанная на программном интерфейсе API (Application programming interface), может дать ассистенту Gemini возможность выполнять действия внутри приложений. На сайте разработчиков Google описывает app functions как «конкретную функциональность, которую приложение предоставляет системе, и которая одновременно может быть интегрирована в различные системные функции».

И хоть пока это звучит довольно расплывчато, Мишаал Рахман (Mishaal Rahman) из Android Authority приводит пример из документации, который проясняет суть. Например, разработчики приложений смогут открывать доступ посредством API к отдельным действиям, как, например, заказ еды, а Gemini сможет сделать заказ, не открывая приложения.

Интересно, что подобную функцию разрабатывает и Apple. В iOS 18 Siri также сможет выполнять действия внутри приложений через обновлённый фреймворк app intents. Например, пользователи смогут заказать что-либо в магазине через Siri, если разработчики определённого приложения подключат такую возможность. Однако внедрение этой функции в случае с Apple ожидается не раньше весны 2025 года.

Стоит отметить, что способность «выполнять действия за пользователя» изначально была одной из главных целей умных ассистентов, но её реализация начала появляться лишь недавно. Пока Gemini в основном ограничен поиском информации в Gmail или Google Maps. Что касается голосового помощника Siri в iOS 18, то он получил интеграцию с ChatGPT, за счёт чего можно задавать более сложные вопросы, но с выполнением действий Siri пока справляется хуже.

Судя по всему, и Google, и Apple закладывают фундамент для более «умных» ассистентов, которые смогут выполнять сложные задачи внутри приложений, и это произойдёт уже очень скоро.

OpenAI планирует выпустить ИИ-агента Operator в январе — он сможет управлять ПК без пользователя

Компания OpenAI готовится к выпуску нового ИИ-агента под кодовым названием Operator, который позволит выполнять разнообразные задачи на компьютере пользователя. Релиз этого инструмента может состояться уже в январе 2025 года.

 Источник изображения: OpenAI

Источник изображения: OpenAI

На первом этапе упомянутое решение будет доступно в качестве предварительной исследовательской версии через API для разработчиков. Operator призван конкурировать с аналогичными ИИ-агентами, такими как недавно представленный Computer Use компании Anthropic и разрабатываемый ИИ-агент Google, ориентированный на потребительский рынок.

OpenAI стремится создать универсальный инструмент, способный выполнять различные операции в веб-браузере и подходящий для решения повседневных задач пользователей. Однако, как отмечает издание Bloomberg, пока неизвестно, предложит ли Operator пользователям значительные преимущества перед аналогичными решениями конкурентов. Исследовательская версия инструмента будет полезна для оценки его потенциальных преимуществ и выявления областей, требующих доработки на основе обратной связи.

Запуск Operator совпадает с публикацией документа OpenAI, содержащего рекомендации для правительства США по вопросам стратегии развития ИИ. В этом документе предлагается создание «экономических зон» для активного развития ИИ-инфраструктуры, а также формирование альянсов с союзниками США, что позволит усилить позиции страны в технологической гонке с Китаем.

ИИ-поиск Google теперь доступен в 100 странах, в том числе Узбекистане и Кыргызстане — России в списке не оказалось

Компания Google объявила о запуске поисковых ИИ-обзоров в более чем 100 странах. Сгенерированные сводки (AI Overviews) будут отображаться для пользователей в Канаде, Австралии, Южной Африке, Нигерии, Узбекистане, Туркменистане, Кыргызстане и многих других странах. Полный список добавленных стран доступен на официальном сайте Google.

 Источник изображения: Copilot

Источник изображения: Copilot

По информации The Verge, ИИ-обзоры будут отображаться на всех поддерживаемых языках, включая английский, хинди, индонезийский, японский, португальский и испанский. Это означает, что пользователи в таких странах, как США, смогут выполнять поиск, например, на испанском языке и получать результаты суммирования информации на том же языке.

Кроме того, ссылки на цитируемые источники в ИИ-обзорах стали более заметными, что сделано для удобства пользователей, если они захотят получить больше информации, перейдя на первоисточник, а также чтобы не лишать сайты трафика.

Ранее сообщалось, что в октябре Google добавила рекламу в ИИ-обзоры на мобильных устройствах, но пока только для пользователей в США. В других странах реклама будет продолжать показываться в специальных слотах на странице, а не внутри самих сводок.

Напомним, функция AI Overviews была впервые запущена в США в мае, а затем в августе стала доступна пользователям в Великобритании, Индии, Японии, Индонезии, Мексике и Бразилии.

Apple Intelligence появится в ЕС только в апреле 2025 года

Компания Apple не будет торопиться с расширением географии своего ИИ-сервиса. После сегодняшнего запуска в США Apple Intelligence сначала дебютируют в декабре в других англоязычных странах, а в странах Евросоюза он появится только будущей весной. Сервис будет поддерживать локальные языки стран и предложит почти полный набор функций, улучшенную Siri и интеграцию с ChatGPT.

 Источник изображения: BoliviaInteligente/Unsplash

Источник изображения: BoliviaInteligente/Unsplash

Apple официально объявила, что её сервис Apple Intelligence станет доступен пользователям в Европейском союзе с апреля 2025 года, сообщает издание TechCrunch. Ранее предполагалось, что технические правила ЕС, а именно закон «О цифровых рынках» Европейского союза (DMA), ограничит запуск технологии в регионе. «Этой весной функции Apple Intelligence начнут развёртываться для пользователей iPhone и iPad в ЕС. В их числе будут Writing Tools, Genmoji, обновлённая Siri с улучшенным пониманием языка, интеграция с ChatGPT и многое другое», — заявляется в пресс-релизе компании.

На данный момент, с выходом iOS 18.1, Apple начала постепенно внедрять функции искусственного интеллекта для последних моделей iPhone, iPad и Mac. Когда Apple Intelligence впервые был представлен на конференции разработчиков WWDC в июне, компания предупреждала, что функции будут внедряться медленно и на первом этапе будут доступны только на американском английском языке. Это всё ещё остаётся актуальным, и для использования сервиса пользовательские устройства должны быть настроены именно на этот язык. Если же Apple ID привязан к европейскому адресу, доступ к сервису на iPhone сейчас невозможен.

При этом владельцы Mac в Европе уже могут опробовать некоторые функции Apple Intelligence. Если у пользователя есть Mac с чипом M1 или новее, достаточно изменить язык системы на американский вариант английского языка, чтобы активировать сервис. Предположительно, эта возможность связана с тем, что Apple признана среди прочих крупных платформ «привратником» (gatekeeper) — основным посредником между бизнес-пользователями и потребителями в рамках DMA, но только в отношении устройств iOS, iPadOS, App Store и Safari. macOS под действие этих правил не попадает.

Apple также подтвердила, что в ближайшее время планирует расширить языковую поддержку. Уже в декабре 2024 года будет добавлена локализованная английская версия для Австралии, Канады, Ирландии, Новой Зеландии, Южной Африкт и Великобритании, а в течение 2025 года сервис станет доступен ещё на двенадцати языках, включая французский, немецкий, итальянский, португальский и испанский.

Единственной функцией, которая, по предварительным данным, не будет доступна в ЕС, окажется «Сводки уведомлений». Более детальных комментариев по этому поводу Apple пока не дала.

Новая статья: Умные помощники: подборка Telegram-ботов с искусственным интеллектом

Данные берутся из публикации Умные помощники: подборка Telegram-ботов с искусственным интеллектом

IT-революция в теннисе: Уимблдон заменит линейных судей на искусственный интеллект с 2025 года

Всеанглийский клуб лаун-тенниса и крокета объявил о революционных изменениях в судействе старейшего теннисного турнира серии Большого шлема — Уимблдона. По сообщению AP News, с 2025 года на Уимблдоне будет использоваться искусственный интеллект для вынесения решений об аутах и ошибках подачи. Линейных судей, которые прежде отвечали за фиксацию этих событий, поблагодарили за значительный вклад и преданную службу.

 Источник изображения: John Fornander/Unsplash

Источник изображения: John Fornander/Unsplash

Салли Болтон (Sally Bolton), исполнительный директор клуба, прокомментировала это решение так: «Мы считаем, что технология достаточно надёжна, и пришло время сделать этот важный шаг для обеспечения максимальной точности в нашем судействе». Она также добавила: «Для игроков это создаст те же условия, в которых они выступают на многих других турнирах». Болтон подчеркнула, что Уимблдонский турнир несёт ответственность за «баланс между традициями и инновациями», и выразила благодарность линейным судьям за их многолетний вклад в проведение чемпионата.

Таким образом, с 2025 года Уимблдон присоединится к Открытым чемпионатам Австралии и США, где судьи на линиях уже были заменены в 2021 году на электронные системы. Открытый чемпионат Франции останется единственным турниром Большого шлема, на котором пока не используются технологии автоматического судейства.

Кроме того, Всеанглийский клуб объявил об изменении времени проведения финалов женского и мужского одиночных разрядов. Теперь они будут начинаться в 16:00 по местному времени во вторую субботу и воскресенье, после финалов парных разрядов. Болтон отметила, что эти изменения направлены на то, чтобы финальные дни соревнований «постепенно наращивали кульминационное напряжение одиночных финалов среди женщин и мужчин, а награждение чемпионов происходило перед максимально широкой мировой аудиторией».

OpenAI запустил новый интерфейс «Canvas» для работы с большими проектами и кодом

OpenAI добавила в ChatGPT новый инструмент Canvas, который позволяет редактировать текст и код, сгенерированный ИИ, не создавая новых запросов. Пользователи могут легко вносить изменения, добавлять комментарии и переводить текст на другой язык. Новый интерфейс позволяет взаимодействовать с ChatGPT на более интуитивном уровне.

 Источник изображения: Levart_Photographer/Unsplash

Источник изображения: Levart_Photographer/Unsplash

Решение OpenAI ввести редактируемое рабочее пространство вписывается в тенденцию того, что уже делают другие разработчики искусственного интеллекта. Например, Anthropic выпустила в июне инструмент Artifacts с аналогичной функцией, а компания Anysphere ИИ-помощника Cursor, который представляет из себя альтернативу Visual Studio Code и уже успел приобрести большую популярность у программистов.

В настоящее время чат-боты не способны выполнять масштабные проекты по одному единственному запросу, требуется множество запросов и часто с многократным повторением одного и того же кода. Редактируемое рабочее пространство Canvas позволит корректировать ошибки в результатах работы ИИ без необходимости заново генерировать весь текст или код. «Это более естественный интерфейс для сотрудничества с ChatGPT», — отметил менеджер по продукту OpenAI Дэниел Левайн (Daniel Levine).

 Источник изображения: Techcrunch.com

Источник изображения: Techcrunch.com

В ходе демонстрации интерфейса Левайн выбрал модель «GPT-4o с Canvas» из выпадающего списка в ChatGPT. Однако в будущем окно Canvas будет появляться автоматически, если система определит, что для выполнения задачи, например для написания длинного текста или сложного кода, потребуется отдельное рабочее пространство. Пользователи также смогут просто ввести команду «use canvas», чтобы открыть окно проекта.

ChatGPT может помочь и в написании письма. Пользователь просто вводит запрос на его создание и готовый текст появится в окне Canvas. Затем можно использовать ползунок для изменения длины текста, а также выделить отдельные предложения, чтобы попросить ChatGPT внести изменения, например, сделать текст дружелюбнее или добавить эмодзи. Кроме того, есть возможность попросить ИИ переписать письмо на другом языке.

Аналогично происходит и с программным кодом. Пользователи могут выделять его фрагменты и задавать дополнительные вопросы ИИ. Отметим, что функции для работы с кодом в Canvas несколько отличаются от обычного рабочего окна ChatGPT. Например, появится новая кнопка «Проверить код», после нажатия на которую ChatGPT проанализирует данные и предложит конкретные правки, вне зависимости от того, сгенерирован ли этот код ИИ или написан человеком.

Canvas с 3 октября уже доступна в бета-версии для пользователей ChatGPT Plus и Teams, а на следующей неделе будет запущена и для пользователей Enterprise и Edu, сообщает ресурс TechCrunch.

Google добавляет в поисковик ещё больше ИИ и начинает показывать рекламу в ИИ-ответах

Google начинает показывать рекламу в AI Overview — кратких сводках, сгенерированных искусственным интеллектом для обобщения результатов поиска. В эти обзоры также будут добавляться ссылки на веб-страницы, которые послужили источником информации. А ещё в поисковике появится новый формат результатов, скомпонованный с помощью ИИ.

 Источник изображения: Copilot

Источник изображения: Copilot

Как пишет издание TechCrunch, нововведения являются частью стратегии Google по удержанию пользователей от перехода к альтернативным ИИ-площадкам, таким как ChatGPT от OpenAI и Perplexity, предоставляющим ответы, которые пользователи ранее задавали поисковой системе Google. Кроме того, компания Perplexity, которая существует всего два года, сообщила о росте аудитории до 85 миллионов посещений в месяц, что, хотя и не сравнится с масштабами Google, но всё же является не очень приятным сигналом для техногиганта.

Напомним, с самого момента запуска функция AI Overview подверглась критике за ошибки и сомнительные советы (добавить клей в пиццу). Кроме того, согласно отчёту платформы SE Ranking, ИИ-сводки частенько ссылались на сайты, содержащие устаревшие данные. Также ИИ не мог отличить факты от вымысла.

Однако Google уже внесла изменения в работу алгоритма, ограничив ответы на запросы, связанные с текущими событиями и темами здравоохранения. «Мы продолжим инвестировать в AI Overview и сделаем функцию ещё полезнее», — заявила Рианнон Белл (Rhiannon Bell), вице-президент по пользовательскому опыту Google Search, на пресс-брифинге. По её словам, компания делает всё возможное, чтобы предоставить пользователям качественный контент.

В настоящее время предпринимаются шаги по монетизации AI Overview. Пользователи в США скоро увидят рекламные объявления в ИИ-сводках на мобильных устройствах. Такие объявления будут помечены как «Реклама» и будут отображаться наряду с обычным контентом в ответах ИИ. Google заявила, что протестировала показ этой рекламы на ограниченной аудитории и получила положительные отзывы. «Пользователи находят рекламу в AI Overview полезной, потому что она позволяет быстро находить нужные товары и услуги в момент, когда они в них нуждаются», — отметил Шаши Такур (Shashi Thakur), вице-президент подразделения Google Ads.

Важно отметить, что по оценкам экспертов, сгенерированные ИИ-сводки могут привести к потере более $2 млрд доходов издателей из-за сокращения показов рекламы на их сайтах. По предварительным подсчётам, AI Overviews фактически отнимет у сайтов около 25 % трафика в виду того, что пользователи, получив нужную информацию в поисковике в кратком формате, не станут переходить на сайты-источники.

Выяснилось, что ИИ-ассистенты не повышают продуктивность программистов

Авторы исследования Uplevel, охватившего деятельность примерно 800 разработчиков программного обеспечения, утверждают, что применение инструментов с искусственным интеллектом для написания программного кода пока не выявило ни повышения производительности труда профильных специалистов, ни снижения их эмоционального выгорания.

 Источник изображения: Unsplash, Luca Bravo

Источник изображения: Unsplash, Luca Bravo

В ходе исследования сравнивались результаты труда выборки из 800 разработчиков на протяжении двух трёхмесячных периодов. В первом периоде программисты трудились с использованием традиционных инструментов, во втором они перешли на использование ИИ-ассистента GitHub Copilot. Примечательно, что на производительности труда разработчиков подобная миграция особо не сказалась в рамках данного эксперимента.

Первоначально ожидалось, что применение GitHub Copilot снизит количество ошибок в программном коде и увеличит производительность труда, но по факту в первом случае наблюдался рост количества ошибок на 41 %, а ещё попытки применять ИИ-ассистента не привели к существенному улучшению ситуации с эмоциональным выгоранием специалистов. По данным GitHub, применение помощника Copilot способно на 55 % повысить скорость написания кода разработчиками.

Некоторые эксперты признались, что написанные с помощью ИИ участки программного кода трудно поддаются анализу и выявлению ошибок, поэтому порой проще переписать нужный фрагмент заново. На ранних этапах развития ChatGPT, например, отмечалось, что этот чат-бот более половины всех запросов, связанных с оптимизацией работы создателей программного кода, просто неверно истолковывает. Представители Gehtsoft, например, убеждены, что разработка программного обеспечения на 90 % зависит от функций человеческого мозга, в части понимания требований, разработки системы и определения ограничений. Превращение сформированных взаимных зависимостей в программный код является самой простой частью работы программиста.

С другой стороны, находятся и те, кто восхваляет возможности ИИ в разработке программного кода. Представители провайдера облачных услуг Innovative Solutions, например, отмечают почти троекратное повышение производительности после перехода на использование ИИ-ассистентов типа Claude Dev и Copilot.

OpenAI запускает долгожданную функцию — голосового ассистента ChatGPT

Компания OpenAI начала развёртывание функции расширенного голосового режима для подписчиков ChatGPT Plus и пользователей сервиса ChatGPT Team для бизнеса. Как сообщает Bloomberg, пользователи планов Enterprise и Edu начнут получать доступ к этой функции уже на следующей неделе.

 Источник изображений: Andrew Neel/Unsplash

Источник изображений: Andrew Neel/Unsplash

Впервые функция, которая может реагировать на письменные и визуальные подсказки пользователей с помощью голоса, была представлена в мае. Однако компания решила отложить её запуск на несколько месяцев, так как были выявлены некоторые потенциальные проблемы, касающиеся безопасности. Тем не менее, уже в июле функция стала доступна ограниченному числу клиентов ChatGPT Plus.

OpenAI заявила, что в рамках расширенного развёртывания новой опции добавит ещё пять различных голосов, таким образом, доведя их общее количество до девяти. При этом голосовой ассистент не сможет имитировать речь других людей и, соответственно, создавать фейки. Также в целях безопасности, добавлены фильтры, гарантирующие, что алгоритм может определять и отклонять некоторые запросы на создание музыки или других форм аудио, защищённых авторским правом.

Bloomberg отмечает, что голосовой помощник ChatGPT, к сожалению, не получит ряд возможностей, которые изначально анонсировала OpenAI. В частности, на данный момент отсутствует заявленная ранее функция компьютерного зрения, позволяющая при помощи камеры смартфона пользователя взаимодействовать с чат-ботом.

Google запустила ИИ-ассистента Gemini Live с возможностью полного контроля над диалогом

Google запустила бесплатный голосовой режим Gemini Live для всех пользователей Android. Эта функция, доступная через приложение Gemini, позволяет вести голосовой диалог с ИИ-ассистентом в реальном времени, прерывать его ответы и выбирать различные голоса.

 Источник изображения: Google Gemini App / X

Источник изображения: Google Gemini App / X

Google впервые анонсировала Gemini Live на презентации Pixel 9 в прошлом месяце, но до сих пор эта функция была доступна только подписчикам Gemini Advanced. Как сообщает ресурс 9to5Google, для активации режима достаточно выбрать новую иконку в форме волны в правом нижнем углу интерфейса.

Gemini Live предлагает функциональность, схожую с голосовым чатом ChatGPT, но обладает рядом уникальных особенностей. Пользователи могут не только задавать вопросы голосом, но и прерывать ответы ИИ-ассистента в середине фразы, что позволяет вести с ним более естественный и динамичный диалог. Интерфейс предоставляет опции «hold» для приостановки ответа Gemini и «end» для завершения беседы, что даёт пользователю полный контроль над диалогом.

Для ещё большей персонализации взаимодействия с ИИ пользователи могут выбрать для ассистента один из понравившихся голосов. На данный момент Gemini Live работает только на английском языке, но Google уже сообщила о планах расширения языковой поддержки и разработки версии для iOS.

Google запустит ИИ-инструмент Ask Photos для поиска по содержимому фотографий

Google приступил к тестированию новой функции Ask Photos (спроси у фото) на основе искусственного интеллекта, с помощью которой можно задавать вопросы по фотографиям и получать ответы на основе их содержимого. Также обновится функция поиска в приложении Google Photos, сообщает The Verge, позволив искать изображения более интуитивным способом.

 Источник изображения: Solen Feyissa/Unsplash

Источник изображения: Solen Feyissa/Unsplash

Ask Photos использует ИИ-ассистента Gemini, который анализируют фотографии и предоставляют ответы вместе с показом изображений, соответствующих запросу. Это значительно облегчит поиск информации о прошедших событиях и поможет пользователям вспомнить важные моменты, сохранившиеся на их фотографиях. Google отмечает, что с помощью этой функции можно также выполнять различные задачи, такие как подведение итогов недавних поездок или выбор лучших семейных фотографий для совместного альбома.

Кроме того, Google улучшила традиционный поиск изображений в приложении Google Photos, который теперь называется «классическим поиском» (classic search). Пользователи смогут искать фотографии, используя естественный язык, например, вводя запросы вроде «Алиса и я смеёмся». Для удобства поиск также будет упорядочен по дате или релевантности. Пока эта функция будет доступна на английском языке как для Android, так и для iOS, а поддержка других языков появится в ближайшие несколько недель.

В рамках подготовки к этим изменениям произошла замена вкладки «Библиотека» на новую страницу «Коллекция», которая должна упростить поиск фотографий и видео. Google обещает, что поиск на интуитивно понятном языке поможет пользователям находить конкретные изображения без необходимости прокручивать тысячи снимков или фильтровать их по местоположению.

Носимый диктофон NotePin с поддержкой ChatGPT поможет запомнить всё

Компания Plaud анонсировала носимый диктофон NotePin на основе искусственного интеллекта с поддержкой ChatGPT, предназначенный для записи заметок и встреч. Устройство имеет форму таблетки и может быть использовано как кулон, закреплено на одежде, руке или любом другом месте.

 Источник изображения: Plaud

Источник изображения: Plaud

NotePin продолжает тенденцию развития носимых гаджетов на базе ИИ, которые, в основном, делятся на два типа — устройства для общения, такие как Friend, и устройства для работы и деловых встреч, такие как, например, Limitless. NotePin относится ко второй категории, так как фокусируется на транскрипции, резюмировании и извлечении важных моментов из записей, поясняет The Verge.

Гаджет работает до 20 часов без подзарядки в режиме непрерывной записи, при этом его использование требует ручного запуска, что сделано специально как для повышения конфиденциальности, так и с целью обеспечения согласия всех участников встречи на запись. За счёт своего компактного размера, NotePin делает весь процесс более удобным, так как предоставляет возможность носить его на теле, например пристегнуть к запястью через браслет или прикрепить к карману NotePin в виде булавки или зажима.

Стоимость устройства составляет $169 в базовой версии с самыми простыми функциями искусственного интеллекта, и за дополнительную плату $79 в год в расширенной версии, в которой доступны шаблоны резюме и маркировка докладчиков.


window-new
Soft
Hard
Тренды 🔥
Надёжный инсайдер раскрыл, когда в Game Pass добавят Call of Duty: World at War и Singularity 33 мин.
Лавкрафтианские ужасы на море: Epic Games Store устроил раздачу рыболовного хоррора Dredge, но не для российских игроков 2 ч.
VK запустила инициативу OpenVK для публикации ПО с открытым кодом 3 ч.
CD Projekt Red объяснила, почему оставила мужскую версию Ви за бортом кроссовера Fortnite и Cyberpunk 2077 4 ч.
Открытое ПО превратилось в многомиллиардную индустрию 5 ч.
Слухи: в вакансиях Blizzard нашли намёки на Diablo V 5 ч.
Nvidia App получило обновление, которое исправило замедление игр — «тормозящие» фильтры теперь отключены по умолчанию 7 ч.
Microsoft перестала полагаться только на ИИ-разработки OpenAI 7 ч.
Индустрия компьютерных клубов в России по итогам 2024 года достигла 25 миллиардов рублей и «продолжит расти ещё в течение четырёх−пяти лет» 8 ч.
VK представила платформу OpenVK для публикации открытого ПО, причём не только своего 8 ч.