Сегодня 19 сентября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI представила думающую языковую модель o1

Компания OpenAI представила новую языковую модель o1, обладающую способностью к рассуждению и логически решать задачи. В отличие от предыдущих моделей, o1 способна имитировать человеческий процесс мышления, разбивая сложные задачи на более простые шаги, анализируя разные подходы и исправляя собственные ошибки.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Большая языковая модель (LLM) o1 показала выдающиеся результаты в тестах и соревнованиях, сравнимые с результатами специалистов-людей. По программированию o1 заняла 49-е место на Международной олимпиаде по информатике (IOI) 2024 года и превзошла 89 % людей на платформе Codeforces. По математике o1 вошла в число 500 лучших студентов США на квалификационном этапе Американской математической олимпиады (AIME), продемонстрировав способность решать задачи, предназначенные для самых одарённых школьников, сообщает OpenAI на своём сайте.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В естественных науках модель превзошла результаты докторов и кандидатов наук в сложном тесте GPQA diamond, оценивающем знания в области химии, физики и биологии. «Это не означает, что o1 умнее любого кандидата наук, — поясняют разработчики. — Это говорит о том, что модель способна решать некоторые задачи на уровне высококвалифицированных специалистов».

Модель o1 также продемонстрировала превосходство над предыдущими моделями в различных тестах на интеллект и решение задач, включая MMMU и MMLU. По данным OpenAI, новая модель значительно превосходит предшествующую версию GPT-4o на большинстве задач, связанных с логическим мышлением. «Наши испытания показали, что o1 последовательно улучшает результаты с увеличением объёма ренфорсмент-обучения и времени, потраченного на размышления», — отмечают в компании. В частности, в тестах AIME модель o1 решила в среднем 83 % задач, тогда как результат GPT-4o — 13 %.

Модель о1 значительно меньше галлюцинирует, чем GPT-4o. Однако она медленнее и дороже. Кроме того o1 проигрывает GPT-4o в энциклопедических знаниях и не умеет обрабатывать веб-страницы, файлы и изображения. Кроме того, новая модель может манипулировать данными, подгоняя решение под результат.

Секрет успеха кроется в фундаментально новом алгоритме обучения — «цепочке мыслей». Модель может улучшать эту цепочку, обучаясь по методу «обучение с подкреплением», благодаря которому распознаёт и исправляет свои ошибки, разбивает сложные шаги на более простые и пробует разные подходы в решении задач. Эта методология значительно улучшает способность модели к рассуждению, которая «как и человек может длительное время размышлять перед тем, как ответить на сложный вопрос».

OpenAI уже выпустила предварительную версию модели o1-preview, доступную для использования в ChatGPT и для разработчиков через API. Компания признаёт, что предстоит ещё много работы, чтобы сделать o1 такой же простой в использовании, как и текущие модели. Также подчёркивается безопасность и этичность новой модели, так как её рассуждения можно контролировать, предотвращая потенциально нежелательное поведение. И прежде чем выпустить o1-preview для публичного использования, со стороны OpenAI были проведены тесты на безопасность.

Стоимость использования o1-preview составляет 15 долларов за 1 млн входных токенов и 60 долларов за 1 млн выходных токенов. Для сравнения, GPT-4o предлагает цену в $5 за 1 млн входных токенов и $15 за миллион выходных.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
YouTube запускает кнопку «Хайп» — она поможет быстро раскрутиться малоизвестным авторам 18 мин.
Microsoft Store станет быстрее «в ближайшем будущем» 38 мин.
Nintendo и The Pokemon Company подали в суд на создателей Palworld — «покемоны с пушками» нарушают сразу несколько патентных прав 2 ч.
Microsoft начнёт широко распространять Windows 11 24H2 в октябре 2 ч.
В русскоязычной «Википедии» стало более 2 миллионов статей 2 ч.
Уязвимость PKfail в Secure Boot оказалась более распространённой, чем ожидалось 5 ч.
В iOS 18 обнаружена ошибка, приводящая к постоянным сбоям приложения «Сообщения» 8 ч.
Clock Tower: Rewind нагонит страх на игроков к Хэллоуину — дата выхода улучшенной версии классического хоррора 29-летней давности 12 ч.
Блогеры на YouTube смогут группировать ролики по сезонам — так их будет удобней смотреть на телевизорах 12 ч.
Хакеры атаковали «Доктор Веб» — компания отключила серверы и приостановила обновление вирусных баз 12 ч.
Обнаружены крупнейшие в истории наблюдений джеты от чёрных дыр — они в 140 раз больше нашей галактики 24 мин.
Intel вывела производство чипов в отдельную компанию для привлечения клиентов 3 ч.
Waymo может поручить выпуск роботакси корейской компании Hyundai Motor 3 ч.
Европейский план «кремниевого суверенитета» терпит крах из-за поменявшихся планов Intel 5 ч.
Китайская флеш-память YMTC теряет слои: из-за санкций компании пришлось перейти с 232-слойной памяти к 160-слойной 6 ч.
Кластер на столе: Mini-ITX плата Turing Pi 2.5 объединяет до четырёх одноплатных компьютеров 12 ч.
Норвегия стала первой в мире страной, в которой электромобилей стало больше, чем машин на бензине 14 ч.
Asus выпустила GeForce RTX 4070 Ti Super Prime на графическом чипе от GeForce RTX 4090 14 ч.
3Logic Group создал системного интегратора «Берегит» 16 ч.
Fractal Design представила компактный корпус Era 2 формата SFF с верхней панелью из ореха 16 ч.