Сегодня 11 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Илон Маск сообщил о масштабной атаке на X, которая привела к сбоям в работе соцсети 2 ч.
Для Stardew Valley вышел мод Baldur’s Village с персонажами из Baldur’s Gate 3 — Свен Винке одобряет 4 ч.
Тонущая Atos неожиданно получила «золотой» контракт от британского госбанка 4 ч.
«У нас есть Stellar Blade дома»: постапокалиптический стелс-экшен Steel Seed от создателей Close to the Sun получил дату выхода и новую демоверсию 5 ч.
Продажи Split Fiction за два дня превысили миллион копий — It Takes Two на достижение этой вершины понадобился почти месяц 6 ч.
Sony отреагировала на слухи об анонсе переизданий God of War в честь 20-летия серии 7 ч.
Спустя три года игры серий Company of Heroes и Warhammer 40,000: Dawn of War вернулись в российский Steam 7 ч.
Календарь релизов — 10–16 марта: Wanderstop, Rise of the Ronin на ПК и Beyond the Ice Palace 2 8 ч.
Сбой в X сделал соцсеть недоступной для десятков тысяч пользователей 8 ч.
Microsoft скоро начнёт масштабное внедрение ИИ Copilot в видеоигры 8 ч.
Новая статья: ИИтоги февраля 2025 г.: неопределённость нарастает 2 ч.
PlayStation 5 Pro получит технологию ИИ-масштабирования, подобную AMD FSR 4 2 ч.
ИИ и VMware: хорошие квартальные результаты и оптимистичный прогноз подстегнули рост акций Broadcom 3 ч.
Asus выпустила мониторы VU Air Ionizer со встроенным ионизатором воздуха 6 ч.
TSMC захватила 2/3 мирового рынка контрактного производства чипов благодаря ИИ — спрос на зрелые техпроцессы упал 7 ч.
Apple не оставила попытки создать умные очки, но вряд ли сможет сделать прорывной продукт 8 ч.
Первый электрический экраноплан успешно испытали с пассажирами на борту 8 ч.
Microsoft вложит ещё $300 млн в облачную и ИИ-инфраструктуру в Южной Африке 8 ч.
Российские силовики столкнулись с дефицитом инструментов для взлома iPhone и других смартфонов 8 ч.
Goldman Sachs: китайские телеком-операторы станут крупнейшими бенефициарами ИИ-бума, раньше всех взяв на вооружение продукты DeepSeek 8 ч.