Сегодня 18 сентября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI представила думающую языковую модель o1

Компания OpenAI представила новую языковую модель o1, обладающую способностью к рассуждению и логически решать задачи. В отличие от предыдущих моделей, o1 способна имитировать человеческий процесс мышления, разбивая сложные задачи на более простые шаги, анализируя разные подходы и исправляя собственные ошибки.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Большая языковая модель (LLM) o1 показала выдающиеся результаты в тестах и соревнованиях, сравнимые с результатами специалистов-людей. По программированию o1 заняла 49-е место на Международной олимпиаде по информатике (IOI) 2024 года и превзошла 89 % людей на платформе Codeforces. По математике o1 вошла в число 500 лучших студентов США на квалификационном этапе Американской математической олимпиады (AIME), продемонстрировав способность решать задачи, предназначенные для самых одарённых школьников, сообщает OpenAI на своём сайте.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В естественных науках модель превзошла результаты докторов и кандидатов наук в сложном тесте GPQA diamond, оценивающем знания в области химии, физики и биологии. «Это не означает, что o1 умнее любого кандидата наук, — поясняют разработчики. — Это говорит о том, что модель способна решать некоторые задачи на уровне высококвалифицированных специалистов».

Модель o1 также продемонстрировала превосходство над предыдущими моделями в различных тестах на интеллект и решение задач, включая MMMU и MMLU. По данным OpenAI, новая модель значительно превосходит предшествующую версию GPT-4o на большинстве задач, связанных с логическим мышлением. «Наши испытания показали, что o1 последовательно улучшает результаты с увеличением объёма ренфорсмент-обучения и времени, потраченного на размышления», — отмечают в компании. В частности, в тестах AIME модель o1 решила в среднем 83 % задач, тогда как результат GPT-4o — 13 %.

Модель о1 значительно меньше галлюцинирует, чем GPT-4o. Однако она медленнее и дороже. Кроме того o1 проигрывает GPT-4o в энциклопедических знаниях и не умеет обрабатывать веб-страницы, файлы и изображения. Кроме того, новая модель может манипулировать данными, подгоняя решение под результат.

Секрет успеха кроется в фундаментально новом алгоритме обучения — «цепочке мыслей». Модель может улучшать эту цепочку, обучаясь по методу «обучение с подкреплением», благодаря которому распознаёт и исправляет свои ошибки, разбивает сложные шаги на более простые и пробует разные подходы в решении задач. Эта методология значительно улучшает способность модели к рассуждению, которая «как и человек может длительное время размышлять перед тем, как ответить на сложный вопрос».

OpenAI уже выпустила предварительную версию модели o1-preview, доступную для использования в ChatGPT и для разработчиков через API. Компания признаёт, что предстоит ещё много работы, чтобы сделать o1 такой же простой в использовании, как и текущие модели. Также подчёркивается безопасность и этичность новой модели, так как её рассуждения можно контролировать, предотвращая потенциально нежелательное поведение. И прежде чем выпустить o1-preview для публичного использования, со стороны OpenAI были проведены тесты на безопасность.

Стоимость использования o1-preview составляет 15 долларов за 1 млн входных токенов и 60 долларов за 1 млн выходных токенов. Для сравнения, GPT-4o предлагает цену в $5 за 1 млн входных токенов и $15 за миллион выходных.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Пользователи по всему миру жалуются на проблемы с доступом к сайтам из-за сбоя у Cloudflare 2 ч.
Еженедельный чарт Steam: в топ-10 вернулись Ghost of Tsushima, Satisfactory и сразу три гоночных хита 3 ч.
Electronic Arts впервые подтвердила продолжение Star Wars Jedi: Survivor — третья часть станет «заключительной главой» 3 ч.
«Заставит вновь почувствовать себя ребёнком»: The Plucky Squire вышла в российском Steam и очаровала критиков 4 ч.
Electronic Arts передумала выпускать The Sims 5 — что ждёт серию в будущем 5 ч.
Google поможет отличать настоящие изображения от подделок ИИ 8 ч.
Rockstar отметила 11-летие GTA V добавлением в GTA Online нового античита на ПК 9 ч.
Instagram усилил родительский контроль, введя ограничения с помощью Teen Accounts 10 ч.
Банк России и Минфин проведут эксперимент по международным расчётам в криптовалюте 10 ч.
Мультфильм The Witcher: Sirens of the Deep со звездой «Ведьмаков» от CD Projekt Red выйдет позже обещанного — утечка раскрыла точную дату релиза 12 ч.
Новая статья: Обзор видеокарты Acer Predator BiFrost Intel Arc A750 OC: конкурентоспособная производительность, высокое энергопотребление 2 ч.
SpaceX грозит штраф из-за нетерпеливости Илона Маска 2 ч.
Швейцария ввела в эксплуатацию гибридный суперкомпьютер Alps: 11 тыс. NVIDIA GH200, 2 тыс. AMD EPYC Rome и щепотка A100, MI250X и MI300A 3 ч.
Объявленный Intel план реструктуризации ставит под сомнение будущее ускорителей Falcon Shores 6 ч.
Китайские учёные научились засекать дроны и самолёты-невидимки по помехам в сети Starlink 6 ч.
Дроны скоро начнут перевозить человеческую кровь между больницами в Лондоне 6 ч.
Koss представила беспроводные наушники Porta Pro Wireless с легендарным дизайном 40-летних Porta Pro 6 ч.
Micron представила полноразмерные SSD Crucial P310 — до 2 Тбайт и до 7100 Мбайт/с 7 ч.
AOC представила четыре 27-дюймовых изогнутых монитора серии G4  — до QHD и до 280 Гц 7 ч.
В России стартовали продажи смартфона Realme C61 с гарантией 2 года и ценой от 9999 рублей 7 ч.