Сегодня 23 августа 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → google gemini
Быстрый переход

Google Gemini теперь поможет в доработке черновиков в Gmail

Google обновила инструменты системы искусственного интеллекта Gemini в Gmail — теперь ИИ поможет в доработке черновиков писем, которые пользователь уже написал. К присутствующим в Gmail функциям «Помощь в написании», «Формализация» и «Уточнение» добавилась опция «Доработать» (Polish).

 Источник изображений: workspaceupdates.googleblog.com

Источник изображений: workspaceupdates.googleblog.com

Чтобы с большей очевидностью указать пользователям на наличие новых функций, Google добавила ярлыки на них прямо в текст письма в приложениях для Android и iOS. Инструменты доступны только для подписчиков Google One AI Premium и тех, кто заплатил за дополнение Gemini в Workspace. При переходе к написанию письма эти пользователи увидят ярлык «Помощь в написании», по нажатии на который Gemini сам пишет черновик. Когда в черновике набираются более 12 слов, появляется ссылка на новую функцию «Доработать мой черновик» (Refine my draft), оформленная серыми буквами под основным текстом.

Можно также провести большим пальцем по тексту, и система предложит выбор «Доработать», «Формализовать», «Дополнить» или, напротив, «Сократить». Gemini может и полностью переписать черновик. Если ярлык «Доработать мой черновик» не появляется, эта функция также доступна по нажатии кнопки со значком карандаша.

Google запускает голосовой чат Gemini Live для живых интеллектуальных бесед

На презентации Pixel 9 компания Google объявила о запуске нового режима голосового чата для Gemini под названием «Gemini Live». Эта функция во многом напоминает функцию голосового чата ChatGPT, предлагая на выбор несколько вариантов голосов и возможность вести разговор в естественной манере, включая прерывание ответов ИИ в любое время.

 Источник изображения: Google

Источник изображения: Google

Как поясняет TheVerge, общение с Gemini Live может происходить в свободной форме, позволяя прерывать ответы на полуслове, приостанавливать разговор не нажимая никаких кнопок и возобновлять его позднее. Функция также работает в фоновом режиме и при заблокированном экране смартфона. Интересно, что о планах запуска Gemini Live компания Google впервые объявила на своей конференции разработчиков I/O ранее в этом году, где также было сказано, что «Live» сможет интерпретировать видео в режиме реального времени.

В дополнение к этому, Google представила 10 новых голосов для Gemini, которые пользователи смогут выбрать по своему усмотрению. Функция начала развёртываться сегодня на устройствах Android, пока только на английском языке, но нам обещают, что в ближайшие недели Gemini Live станет доступен на iOS и получит поддержку дополнительных языков.

 Источник изображения: Google

Источник изображения: Google

Помимо Gemini Live, анонсированы и другие функции для ИИ-ассистента, в частности возможность анализировать контекст экрана пользователя, что напоминает функцию ИИ, анонсированную недавно Apple на мероприятии WWDC. После того как пользователь выберет опцию «Ask about this screen» (Спросить о том, что изображено на экране) или «Ask about this video» (Спросить, что показано на видео), Gemini сможет предоставить информацию, включая извлечение деталей, например, пунктов назначения из туристических видео, для добавления в Google Maps.

Отметим, что Gemini Live будет доступен пока только для подписчиков Gemini Advanced.

Международная версия нового флагманского смартфона Xiaomi получит поддержку Google Gemini

Китайский электронный гигант Xiaomi работает с Google над интеграции большой языковой модели Gemini в новый флагманский телефон производителя, предназначенный для международного рынка.

 Источник изображения: x.com/leijun

Источник изображения: x.com/leijun

«Рад работать совместно с Google над будущими флагманскими устройствами Xiaomi для международных рынков. <..> Используя Google Cloud и Gemini, мы собираемся предложить более умные и интуитивно понятные функции», — написал в соцсети X глава Xiaomi Лэй Цзюнь (Lei Jun) после объявления, сделанного на двухдневном мероприятии Google I/O Connect China в Пекине, которое завершилось в минувший четверг.

Смартфоны Xiaomi 15, как ожидается, будут представлены в этом году. О намерении интегрировать какие-либо большие языковые модели в китайскую версию устройств сообщений пока не было, но известно, что Xiaomi разработала собственную модель MiLM — ещё в мае соответствующие документы появились у регуляторов. Система Google Gemini, как и многие другие зарубежные службы ИИ, недоступна в материковом Китае, где местные власти проводят их проверку перед выпуском в общий доступ.

 Источник изображения: blog.google

Источник изображения: blog.google

Совместный проект с Google может придать Xiaomi определённый импульс на международном рынке — компания, по версии аналитиков IDC, во II квартале стала третьим поставщиком смартфонов в мире с долей 14,8 % рынка. Первой и второй стали Samsung и Apple с долями 18,8 % и 15,8 % соответственно. Мировые поставки смартфонов во II квартале выросли на 6,5 % год к году и достигли 285,4 млн единиц, добавили в IDC.

Apple в этом году намеревается интегрировать в свои iPhone собственную систему Apple Intelligence, но в Китае компания, как ожидается, воспользуется услугами местного поставщика ИИ-решений. Пакет функций Galaxy AI, который появился на флагманских Samsung Galaxy S24 в этом году, основан на технологиях Google Gemini, а в Китае их заменит большая языковая модель Baidu Ernie.

Технологии Google Gemini интегрирует в международную версию своего флагмана и китайская Oppo — она вместе с Vivo заняла на мировом рынке смартфонов четвёртое место с долей 9 % рынка. На прошедшем мероприятии Oppo уже продемонстрировала функции на базе Gemini: перевод в реальном времени, составление сводок статей и генерацию мультимодального контента. Функции Gemini уже доступны в международной версии Oppo Reno12, и в этом году их работа будет улучшена.

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Google открыла всем пользователям бесплатный доступ к быстрой и лёгкой ИИ-модели Gemini 1.5 Flash

Google представила новую версию генеративной модели ИИ Gemini 1.5 Flash, которая доступна на более чем 40 языках и в более чем 230 странах и территориях. Компания анонсировала «общее улучшение качества и снижение задержек, особенно заметные улучшения в рассуждении и понимании изображений». Значительно увеличился размер контекстного окна, добавлена возможность загрузки файлов из Google «Диска», расширены возможности Gemini для подростков и мобильных приложений.

 Источник изображения: Google

Источник изображения: Google

Google поставила своей приоритетной целью добиться максимальной доступности новой модели Gemini. Компания начала постепенно внедрять Gemini в «Сообщениях» Google для устройств Android в Европейской экономической зоне (ЕС, Исландия, Лихтенштейн и Норвегия), Великобритании и Швейцарии. Пользователям стало доступно общение с Gemini на французском, польском и испанском языках.

Google расширила доступ к мобильному приложению Gemini в большем количестве регионов и стремится привлечь подростков старше 13 лет к использованию инструментов ИИ. Компания представила специальный процесс адаптации для подростков и руководство по грамотности в области ИИ, чтобы помочь пользователям любого уровня подготовки лучше понимать школьные предметы, готовиться к поступлению в университет или получать помощь в творческих проектах.

Google заявила о сотрудничестве с экспертами по безопасности и развитию детей, включая MediaSmarts, Miudos Seguros и Fad Juventud, которые «продолжают предоставлять экспертные знания по удовлетворению уникальных потребностей подростков и семей».

Google утверждает, что новая версия Gemini предложит существенное улучшение общего качества ответов и снижение задержек. Наибольший прогресс обещан в рассуждении и понимании изображений. Контекстное окно увеличено в четыре раза до 32 000 токенов. Для увеличения эффективности использования большого контекстного окна скоро появится возможность загружать файлы пользователя через Google «Диск» или непосредственно с устройства пользователя, что раньше было доступно лишь в Gemini Advanced.

В рамках работы по уменьшению галлюцинаций ИИ Google теперь отображает ссылки на соответствующий контент при ответе на вопросы, требующие подтверждения фактами. В конце абзаца ответа будет отображена ссылка на сайты, где можно прочитать больше по этой теме. Если ответ Gemini ссылается на информацию, найденную с помощью расширения Gmail, пользователь увидит ссылки на соответствующие электронные письма. В настоящее время эта функция ограничена подсказками только на английском языке.

Google подчёркивает, что развитие Gemini «всегда основывалось на приверженности ответственности и безопасности пользователей». Компания проводит политику максимальной открытости и прозрачности, подробно рассказывая о всех этапах разработки Gemini. В блоге Google можно получить подробную информацию о политике компании в отношении ИИ и о том, как компания решает сложные и деликатные вопросы, связанные с общественными интересами, а также политическими, религиозными или моральными убеждениями.

ИИ Gemini оказался совсем не так хорош в обработке больших объёмов данных, как заявляла Google

Новые исследования ставят под сомнение заявления Google о возможностях больших языковых моделей моделей Gemini по обработке больших объёмов данных, показывая, что их эффективность в анализе длинных текстов и видео значительно ниже заявленной.

 Источник изображения: Google

Источник изображения: Google

Недавние исследования выявили существенные недостатки в работе флагманских генеративных моделей искусственного интеллекта Google Gemini 1.5 Pro и 1.5 Flash, пишет издание TechCrunch. Google неоднократно подчёркивала способность Gemini обрабатывать огромные объёмы данных благодаря большому контекстному окну, утверждая, что модели могут анализировать документы объёмом в сотни страниц и искать информацию в видеозаписях. Однако два независимых исследования показали, что на практике эти модели справляются с такими задачами гораздо хуже.

Учёные из Массачусетского университета в Амхерсте (UMass Amherst), Института Аллена по искусственному интеллекту (Allen Institute for AI) и Принстона (Princeton University) тестировали Gemini на способность отвечать на вопросы о содержании художественных книг. Представленная для теста книга содержала около 260 000 слов (около 520 страниц). Результаты оказались неутешительными. Gemini 1.5 Pro правильно ответил только в 46,7 % случаев, а Gemini 1.5 Flash лишь в 20 % случаев. Далее усреднив результаты, выяснилось, что ни одна из моделей не смогла достичь точности ответов на вопросы выше случайной.

Маржена Карпинска (Marzena Karpinska), соавтор исследования, отметила: «Хотя такие модели, как Gemini 1.5 Pro, технически могут обрабатывать длинные контексты, мы видели много случаев, указывающих на то, что модели на самом деле не понимают содержание».

Второе исследование, проведённое учёными из Калифорнийского университета в Санта-Барбаре, фокусировалось на способности Gemini 1.5 Flash анализировать видеоконтент, а точнее слайды с изображениями. Результаты также оказались неудовлетворительными — из 25 изображений ИИ дал правильные ответы только в половине случаев, а при увеличении количества картинок точность ответов понизилась до 30 %, что ставит под сомнение эффективность модели в работе с мультимедийными данными.

Правда отмечается, что ни одно из исследований не прошло процесс рецензирования, и к тому же не тестировались самые последние версии моделей с контекстом в 2 миллиона токенов. Тем не менее, полученные результаты вызывают серьёзные вопросы в отношении реальных возможностей генеративных моделей ИИ в целом, и о том, насколько обоснованы маркетинговые заявления технологических гигантов.

Данные исследования появились на фоне растущего скептицизма в отношении генеративного ИИ. Так, недавние опросы международной консалтинговой компании Boston Consulting Group показали, что около половины опрошенных руководителей высшего звена не ожидают существенного повышения производительности от использования генеративного ИИ и обеспокоены возможными ошибками и проблемами с безопасностью данных.

Эксперты же призывают к разработке более объективных критериев оценки возможностей ИИ и к большему вниманию и независимой критике. Google пока не прокомментировал результаты этих исследований.

Apple может объявить о сделке с Google по интеграции Gemini в iPhone уже осенью

В рамках WWDC 2024 ранее в этом месяце Apple объявила о сотрудничестве с OpenAI для интеграции ChatGPT в свои устройства. Вместе с тем компания сообщила, что в будущем будут интегрированы и другие ИИ. Теперь сообщается, что Apple планирует заключить партнёрское соглашение с Google и позднее с Anthropic. Ожидается, что компания объявит о новых сделках этой осенью, одновременно с запуском собственной системы искусственного интеллекта Apple Intelligence в бета-версии.

 Источник изображения: Daniel Romero / Unsplash

Источник изображения: Daniel Romero / Unsplash

По информации Марка Гурмана (Mark Gurman) из Bloomberg, Apple готовится к значительному расширению возможностей искусственного интеллекта в своих устройствах. Помимо уже анонсированной интеграции с ChatGPT, компания планирует объявить о партнёрстве с Google для добавления чат-бота Gemini в свои продукты. Это объявление ожидается осенью, и намёки на потенциальную сделку уже были сделаны руководителем отдела программного обеспечения Apple Крейгом Федериги (Craig Federighi), также передаёт издание The Verge.

Кроме того, судя по слухам, фигурирует возможное сотрудничество с компанией Anthropic, хотя точные сроки анонса этого партнёрства пока неизвестны. В то же время, Гурман отмечает, что Apple отказалась от сотрудничества с Meta из-за вопросов конфиденциальности, связанных с её чат-ботом Llama.

Параллельно с интеграцией сторонних решений, Apple будет развивать собственную систему искусственного интеллекта, получившее название Apple Intelligence. Ожидается, что первая бета-версия этой системы будет представлена также осенью, однако пока неясно, будет ли она достаточно функциональна, чтобы стать основным стимулом для обновления устройств, таких как iPhone 15 Pro и Pro Max на более новые.

Эксперты полагают, что Apple рассматривает искусственный интеллект не только как набор функций для продвижения своих устройств, но и как потенциальный источник прямой прибыли. В будущем компания может внедрить платную подписку на некоторые возможности Apple Intelligence, а также получать долю от покупок в приложениях, связанных с подписками на чат-боты своих партнёров.

Интеграция сторонних ИИ-сервисов может стать хорошей временной альтернативой для Apple, так как компания не очень быстро разрабатывает собственную систему генеративного ИИ. При этом пользователи получат больший выбор и разнообразие функций искусственного интеллекта на устройствах Apple.

Google позволит создавать кастомных чат-ботов для индивидуального общения — в том числе, на основе знаменитостей и блогеров

Google разрабатывает технологию создания персонализированных чат-ботов, с которыми можно общаться как с реальными людьми или вымышленными персонажами. Пользователи смогут создавать собственных ботов, настраивая их стиль общения и характер.

 Источник изображения: Google

Источник изображения: Google

По данным The Information, подразделение Google Labs разрабатывает продукт для создания и общения с настраиваемыми чат-ботами, которые могут быть смоделированы на основе знаменитостей или созданы непосредственно самими пользователями. Чат-боты будут построены на основе моделей Gemini и позволят задавать их индивидуальную личность, а также внешний вид виртуального собеседника. Google рассматривает возможность официального сотрудничества с инфлюенсерами для создания ботов на их основе.

Учитывая возможности ИИ-моделей по работе с большими объёмами данных, проект отлично впишется в концепцию Google Labs и может быть запущен уже в этом году в качестве отдельного продукта. В перспективе планируется интегрировать этот продукт в YouTube, что даст пользователям возможность общаться с персонализированными чат-ботами прямо на платформе видеохостинга. Это будет эксперимент, который уже предлагает Meta в Instagram, правда, не вызывая пока особого интереса со стороны пользователей.

Отметим, что новый проект отличается от проекта Gems, который является просто кастомизированной версией Gemini для определённых нужд. Например, в Gemini Gems по умолчанию будет тренер по йоге, репетитор по математике и кулинарный гуру. А чтобы создать собственного личного помощника, придётся купить подписку Gemini Advanced. Gems был анонсирован на конференции Google I/O 2024 в мае и станет доступен широкой аудитории в ближайшее время.

Браузер Firefox версии Nightly получил ИИ-помощников ChatGPT и Gemini

Компания Mozilla добавила в экспериментальную версию своего браузера Firefox Nightly полный набор популярных чат-ботов. Интеграция ИИ-помощников в браузер позволит анализировать и обобщать найденную в интернете информацию.

 Источник изображения: Mozilla

Источник изображения: Mozilla

Уже на этой неделе пользователи смогут добавить в боковую панель ChatGPT, Google Gemini, HuggingChat и других известных чат-ботов. Правда, чтобы их протестировать в Firefox, необходимо установить экспериментальную версию браузера Nightly — это специальная «нестабильная платформа для тестирования и разработки».

После установки Nightly, перейдите в «Настройки» — «Nightly Experiments» и активируйте опцию «AI Chatbot Integration», далее выберите бота. Для его постоянного размещения на панели, нужно кликнуть правой кнопкой мыши по верхней панели браузера и выбрать «Настроить панель инструментов». Затем следует перетащить иконку чат-бота на верхнюю панель.

 Источник изображения: Mozilla

Источник изображения: Mozilla

Компания отмечает, что все модели чат-ботов находятся на стадии разработки и имеют как сильные, так и слабые стороны. «Ни один из них не идеален, и каждый выполняет какую-то задачу лучше, какую-то хуже». Кстати, использование чат-ботов полностью опционально и не встроено в основные функции Firefox.

Mozilla, на самом деле, следует тенденции, заданной другими разработчиками браузеров, которые внедряют чат-ботов в свои продукты. Например, Microsoft и Google уже представили Copilot и Gemini для Edge и Chrome, а Opera и DuckDuckGo также уже зашли в этот «океан», экспериментируя с ИИ. В компании отметили, что будут продолжать тестирование версии Nightly, прежде чем внедрять эту функцию в бета-версию и официальный релиз Firefox.

В устройства Apple интегрируют не только ChatGPT — будут и другие модели, включая Google Gemini

Конференция WWDC 2024 на этой неделе подтвердила информацию об интеграции чат-бота ChatGPT компании OpenAI с функциями голосового интерфейса Siri компании Apple. Руководство последней также дало понять, что ChatGPT всё не ограничится, и в случае необходимости Apple могла бы реализовать интеграцию с другими большими языковыми моделями типа Google Gemini.

 Источник изображения: Apple

Источник изображения: Apple

Об этом в интервью после открытия WWDC 2024 заявил старший вице-президент Apple Крейг Федериги (Craig Federighi), как отмечает TechCrunch. «В будущем мы ожидаем интеграцию с другими моделями, включая Google Gemini, например», — пояснил представитель компании. Сейчас он не готов делать соответствующие официальные анонсы, но именно в этом направлении Apple движется, как добавил Крейг Федериги.

Доступ пользователей iOS 18 к ChatGPT, как уже отмечалось накануне, не потребует отдельной оплаты или авторизации в сервисах OpenAI, а вопросы безопасной передачи данных будут регулироваться достаточно прозрачно. Как пояснили представители компании, прежде чем переключиться на использование сервисов OpenAI, пользователи Apple получат от Siri уточняющий вопрос с просьбой подтвердить это действие. Если от пользователя потребуется передача какой-либо информации в инфраструктуру OpenAI, то ему также придётся подтвердить этот шаг через фирменного голосового ассистента Siri.

Кстати, подобная интеграция уже насторожила Илона Маска (Elon Musk) до такой степени, что он собрался запретить сотрудникам своих компаний использовать устройства Apple, поддерживающие iOS 18. По мнению миллиардера, передача информации через платформу Apple в сторону OpenAI создаёт существенные риски для её защищённости.

«Кошки на Луне» — новый перл от создателей пиццы с клеем

Недавно компания Google представила обновленную функцию поиска, которая использует искусственный интеллект для генерации мгновенных ответов на запросы пользователей над результатами поиска. Однако эксперты беспокоятся и предупреждают, что «кошки на Луне» — это не совсем то, что хотели бы получить в итоге пользователи.

 Источник изображения: Kandinsky

Источник изображения: Kandinsky

Новый поисковый ИИ-инструмент AI Overview компании Google, который она сделала доступной для жителей США, стал предметом бурного обсуждения в сети из-за того, что частенько он даёт опасные, глупые и вредные ответы (вроде советов использовать клей для закрепления начинки на пицце или съедать по камню в день для удовлетворения потребностей организма в минералах). Новый пример дезинформации от поисковика не заставил себя долго ждать. Когда журналист из Associated Press спросил Google, были ли когда-нибудь кошки на Луне, система искусственного интеллекта уверенно ответила: «Да, астронавты встречали кошек на Луне, играли с ними и заботились о них». Это, конечно же, совершенная неправда.

Более того, ИИ не ограничился одним этим утверждением и продолжил: «Например, Нил Армстронг сказал: “Один маленький шаг для человека”, имея в виду кошачий шаг. А ещё Базз Олдрин держал кошек на корабле “Аполлон-11”».

Проблема в том, что языковые модели, используемые в системах искусственного интеллекта, склонны к «галлюцинациям» — они могут придумывать информацию, основываясь на данных, на которых они обучались. И если эти данные содержат предубеждения или ошибки, система будет их также повторять и, больше того, изобретать новые.

Особенно опасно, когда люди задают системе вопросы срочного порядка, например о том, как действовать при укусе змеи. В таких ситуациях ошибка в ответе может поставить под угрозу жизнь человека.

Эмили Бендер (Emily Bender), профессор лингвистики из Вашингтонского университета, еще в 2021 году предупреждала Google о потенциальных проблемах такого подхода. Она говорила, что системы ИИ могут только усугублять уже существующий в обществе расизм, сексизм и другие предрассудки.

Еще одна проблема, как отмечает автор статьи AP News.com, оказалась более глубокой. Выдача готовых ответов вместо списка сайтов лишает людей возможности самостоятельно искать информацию и проявлять поисковую активность. Также отпадает необходимость посещать онлайн-форумы, так как зачем, если вопрос уже решён. При этом для владельцев многих (очень многих) сайтов это означает потерю ценного интернет-трафика от Google, благодаря которому сайты и существуют.

Тем временем конкуренты Google, такие как OpenAI с их ChatGPT и стартап Perplexity AI, активно разрабатывают собственные решения с использованием ИИ. По словам коммерческого директора Perplexity Дмитрия Шевеленко, обновление Google, похоже, было сделано «в спешке» и содержит много случайных ошибок.

В заявлении Google в пятницу говорится, что они предпринимают меры по исправлению неверных ответов и улучшению качества сервиса. Но в целом компания утверждает, что система работает так, как и планировалось, и было проведено тщательное тестирование перед ее запуском.

Google так и не решила проблемы с расовой инклюзивностью у генератора изображений Gemini

В феврале Google приостановила работу основанного на искусственном интеллекте генератора изображений Gemini, который допускал оскорбляющие общественность исторические неточности. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм — и стереотипно чёрные мужчины по запросу «зулусские воины». Кажется, ничего не изменилось до сих пор.

 Источник изображения: blog.google

Источник изображения: blog.google

Гендиректору Google Сундару Пичаи (Sundar Pichai) пришлось принести извинения за сбой в работе генератора изображений Gemini, а глава ответственного за проект профильного подразделения Google DeepMind Демис Хассабис (Demis Hassabis) пообещал, что ошибка будет исправлена в «кратчайшие сроки» — за несколько недель. Сейчас уже середина мая, а ошибка до сих пор не исправлена.

На этой неделе Google провела ежегодную конференцию I/O, на которой рассказала о множестве новых функций Gemini: модель ИИ сможет использоваться для создания собственных чат-ботов, планировки маршрутов, она будет интегрирована в Google Calendar, Keep и YouTube Music. Но генерация изображений до сих пор отключена в приложении Gemini и веб-интерфейсе, подтвердил ресурсу TechCrunch представитель Google.

Причин задержки он не пояснил. По одной из версий, при обучении ИИ используются наборы данных, в которых превалируют изображения белых людей, тогда как представители других рас и этнических групп составляют исключения, что формирует стереотипы. В попытке исправить этот перекос Google могла прибегнуть к кардинальной мере — жёсткому кодированию, при котором данные встраиваются непосредственно в исходный код. Исправить созданный таким образом алгоритм очень непросто.

Google показала прямо в рекламном ролике, как ИИ даёт вредный совет

На конференции I/O 2024 компания Google подчеркнула, что разработанный ей нейросети Gemini станут новым словом в поиске и ИИ-ассистентах. Однако одна из самых ярких демонстраций возможностей этой системы снова омрачилась недостатком, присущим всем современным большим языковым моделям — галлюцинациями, то есть дачей заведомо неверного ответа.

 Источник изображений: youtube.com/@Google

Источник изображений: youtube.com/@Google

В ролике «Поиск в эпоху Gemini» Google продемонстрировала видеопоиск — функцию поиска информации на основе видео. В качестве одного из примеров компания привела ролик с застрявшим рычажком перемотки плёнки на фотоаппарате и вопросом, почему этот рычажок не движется до конца. Gemini распознал видео, понял запрос и дал несколько советов по исправлению. И как минимум один из них оказался неверным.

ИИ порекомендовал «открыть заднюю крышку и аккуратно снять плёнку». И это, возможно, худшее, что можно сделать в данной ситуации. Потому что если открыть заднюю крышку плёночного фотоаппарата не в абсолютно тёмной комнате, плёнка засветится, и все сделанные снимки придут в негодность. Но на видео этот ответ подсвечен как наиболее подходящий.

Google уже не впервые публикует рекламный материал с фактической ошибкой — заведомо неверной информацией, которую даёт ИИ. В прошлом году чат-бот Bard сообщил, что первый снимок экзопланеты — планеты за пределами Солнечной системы — был получен космическими телескопом «Джеймс Уэбб» (JWST), хотя это не так.

Google интегрирует искусственный интеллект Gemini в Gmail

На конференции Google I/O компания анонсировала интеграцию технологии искусственного интеллекта Gemini в почтовый сервис Gmail. ИИ сможет отвечать на вопросы пользователей, предлагать готовые ответы, а также выполнять рутинные задачи в фоновом режиме.

 Источник изображения: Google

Источник изображения: Google

Gmail является, пожалуй, самым популярным веб-интерфейсом для работы с электронной почтой в мире. Однако даже у такого удобного сервиса могут быть свои недостатки, связанные в первую очередь с тем, что работа с большим объёмом писем и вложений может быть весьма хаотичной и трудоёмкой.

Для решения этой проблемы инженеры Google решили интегрировать в Gmail систему искусственного интеллекта Gemini. Система сможет анализировать содержание писем, извлекать из них ключевую информацию и даже формулировать варианты ответов. По словам вице-президента Google Апарны Паппу (Aparna Pappu), Gemini способен взять на себя всю «тяжёлую работу» по структурированию хаотичных потоков писем.

Одна из ключевых особенностей ИИ заключается в возможности задавать вопросы непосредственно в цепочках писем. Например, пользователь может спросить у системы, какова была предложенная стоимость того или иного проекта, упомянутого в переписке. Gemini проанализирует соответствующие письма и выдаст точный ответ.

Ещё одна полезная функция заключается в автоматическом сравнении конкурирующих коммерческих предложений от разных компаний и формирование из них сводных таблиц. Такие таблицы Gemini может генерировать самостоятельно на основе данных из писем.

Помимо этого, искусственный интеллект избавит пользователей от необходимости вручную обрабатывать многочисленные входящие вложения к письмам, и займётся их организацией в облачном хранилище Google Drive, формируя из них также сводные таблицы. Это могут быть счета, чеки и другие вложения.

Наконец, Google анонсировала интеграцию в Gmail персональных чат-ботов, которые смогут выполнять поиск информации и решать задачи по запросам пользователей в различных сервисах Google — таких как почта, облачное хранилище и других. По словам разработчиков, все эти новшества должны сделать работу с электронной почтой более эффективной и приятной, избавив от однообразных рутинных операций.

Вместе с тем, интеграция Gemini в Gmail произойдёт не сразу. Сначала новые функции появятся в тестовом режиме Google Labs (этой осенью). А вот широкая публика сможет воспользоваться преимуществами ИИ в Gmail только в конце 2024 года или даже позже. При этом доступ к расширенным возможностям Gemini будет платным и составит $19,95 в месяц за каждого пользователя в рамках подписки Google AI Premium.

Google представила Gemini Live — ИИ-ассистента с памятью, естественной речью и компьютерным зрением

Во вторник на конференции Google I/O 2024 была анонсирована новая возможность для ИИ-чат-бота Gemini — функция Gemini Live, которая позволяет пользователям вести «углубленные» голосовые диалоги с Gemini на своих смартфонах. Пользователи могут прерывать Gemini во время его реплик, чтобы задать уточняющие вопросы, и чат-бот будет адаптироваться к речи пользователя в режиме реального времени. Кроме того, Gemini может видеть и реагировать на окружение пользователя, используя фотографии или видео, снятые камерами смартфонов.

 Источник изображений: Google

Источник изображений: Google

Gemini Live — это в некотором роде соединение платформы компьютерного зрения Google Lens и виртуального помощника Google Assistant, и их дальнейшая эволюция. На первый взгляд Gemini Live не кажется кардинальным обновлением по сравнению с существующими технологиями. Но Google утверждает, что система использует новые методы генеративного ИИ, чтобы обеспечить превосходный, менее подверженный ошибкам анализ изображений, и сочетает эти методы с улучшенным речевым движком для более последовательного, эмоционально выразительного и реалистичного многооборотного диалога.

Технические инновации, используемые в Gemini Live, частично связаны с проектом Project Astra, новой инициативой DeepMind по созданию приложений и «агентов» на базе ИИ с поддержкой «понимания» в реальном времени различных источников данных — текста, аудио и изображения. «Мы всегда хотели создать универсального агента, который будет полезен в повседневной жизни, — сказал на брифинге Демис Хассабис (Demis Hassabis), генеральный директор DeepMind. — Представьте себе агентов, которые могут видеть и слышать то, что мы делаем, лучше понимать контекст, в котором мы находимся, и быстро реагировать в разговоре, делая темп и качество взаимодействия гораздо более естественными».

Gemini Live, который будет запущен только в конце этого года, сможет отвечать на вопросы о предметах, находящихся в поле зрения (или недавно попавших в поле зрения) камеры смартфона, например, в каком районе находится пользователь или как называется сломавшаяся деталь велосипеда. Либо пользователь сможет указать системе на часть компьютерного кода, а Live объяснит, за что она отвечает. А на вопрос о том, где могут находиться очки пользователя, Gemini Live скажет, где он видел их в последний раз. А как это облегчит поиск потерянного пульта от телевизора!

Live также сможет стать своеобразным виртуальным наставником, помогая пользователям отрепетировать речь к мероприятию, обдумать идеи и так далее. Live может подсказать, какие навыки следует подчеркнуть на предстоящем собеседовании или стажировке, или дать совет по публичному выступлению.

Способность Gemini Live «запоминать», что происходило недавно, стала возможной благодаря архитектуре модели, лежащей в ее основе — Gemini 1.5 Pro, а также, но в меньшей степени, других «специфических» генеративных моделей. У Gemini 1.5 Pro весьма ёмкое контекстное окно, а значит, она может принять и обработать большое количество данных — около часа видео — прежде чем подготовить ответ. В Google отметили, что Gemini Live будет помнить всё, что происходило в последние часы.

Gemini Live напоминает генеративный ИИ, применяемый в очках Meta, которые аналогичным образом могут просматривать изображения, снятые камерой, и интерпретировать их практически в реальном времени. Судя по демонстрационным роликам, которые Google показала во время презентации, Live также очень похож на недавно обновленный ChatGPT от OpenAI.

Ключевое различие между новым ChatGPT и Gemini Live заключается в том, что решение от Google не будет бесплатным. После запуска Live будет эксклюзивом для Gemini Advanced, более сложной версии Gemini, которая доступна подписчикам плана Google One AI Premium Plan, стоимостью 20 долларов в месяц.

Возможно, в качестве отсылки к очкам Meta, в одном из демонстрационных роликов Google был показан человек в AR-очках, оснащенных приложением, похожим на Gemini Live. Правда, компания Google, желая избежать очередного провала в сфере умных очков, отказалась сообщить, появятся ли этот или подобный продукт с генеративным ИИ на рынке в ближайшем будущем.


window-new
Soft
Hard
Тренды 🔥
Акции Meta взлетели после того, как Цукерберг смог «продать» инвесторам идею ИИ 36 мин.
Apple продолжает вставлять палки в колёса магазину приложений Epic Games 40 мин.
Геймплей с титанами, мир как оружие и физика нового поколения: трейлер и сроки выхода Eternal Strands от студии экс-режиссёра Dragon Age 5 ч.
Microsoft изменила отчётность, чтобы полнее отражать вклад ИИ в финансовые результаты 6 ч.
Астрологи объявили возвращение легендарной серии: анонсированы новые «Герои меча и магии» — Heroes of Might & Magic: Olden Era 7 ч.
Microsoft наконец избавится от «Панели управления» в Windows 11 7 ч.
Видеотрафик VK вырос на 30 % на фоне замедления YouTube в России 8 ч.
Сюжетная ролевая игра Bloomtown: A Different Story отправит изгонять демонов и заводить друзей — дата выхода и новый трейлер 9 ч.
Google рекомендовала срочно обновить Chrome — найдена уже девятая уязвимость нулевого дня в этом году 10 ч.
Роглайк-экшен [Redacted] во вселенной The Callisto Protocol вышел из тени, а сам хоррор попал в новую раздачу от Epic Games Store 10 ч.