Сегодня 18 сентября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Пользователи по всему миру жалуются на проблемы с доступом к сайтам из-за сбоя у Cloudflare 2 ч.
Еженедельный чарт Steam: в топ-10 вернулись Ghost of Tsushima, Satisfactory и сразу три гоночных хита 2 ч.
Electronic Arts впервые подтвердила продолжение Star Wars Jedi: Survivor — третья часть станет «заключительной главой» 2 ч.
«Заставит вновь почувствовать себя ребёнком»: The Plucky Squire вышла в российском Steam и очаровала критиков 4 ч.
Electronic Arts передумала выпускать The Sims 5 — что ждёт серию в будущем 5 ч.
Google поможет отличать настоящие изображения от подделок ИИ 8 ч.
Rockstar отметила 11-летие GTA V добавлением в GTA Online нового античита на ПК 8 ч.
Instagram усилил родительский контроль, введя ограничения с помощью Teen Accounts 9 ч.
Банк России и Минфин проведут эксперимент по международным расчётам в криптовалюте 9 ч.
Мультфильм The Witcher: Sirens of the Deep со звездой «Ведьмаков» от CD Projekt Red выйдет позже обещанного — утечка раскрыла точную дату релиза 11 ч.
Новая статья: Обзор видеокарты Acer Predator BiFrost Intel Arc A750 OC: конкурентоспособная производительность, высокое энергопотребление 2 ч.
SpaceX грозит штраф из-за нетерпеливости Илона Маска 2 ч.
Швейцария ввела в эксплуатацию гибридный суперкомпьютер Alps: 11 тыс. NVIDIA GH200, 2 тыс. AMD EPYC Rome и щепотка A100, MI250X и MI300A 3 ч.
Объявленный Intel план реструктуризации ставит под сомнение будущее ускорителей Falcon Shores 5 ч.
Китайские учёные научились засекать дроны и самолёты-невидимки по помехам в сети Starlink 5 ч.
Дроны скоро начнут перевозить человеческую кровь между больницами в Лондоне 6 ч.
Koss представила беспроводные наушники Porta Pro Wireless с легендарным дизайном 40-летних Porta Pro 6 ч.
Micron представила полноразмерные SSD Crucial P310 — до 2 Тбайт и до 7100 Мбайт/с 6 ч.
AOC представила четыре 27-дюймовых изогнутых монитора серии G4  — до QHD и до 280 Гц 6 ч.
В России стартовали продажи смартфона Realme C61 с гарантией 2 года и ценой от 9999 рублей 7 ч.