Сегодня 26 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Платная версия ChatGPT отупела, в то время как бесплатная набралась ума, выяснили учёные из Стэнфорда

Новое исследование, проведённое учёными из Стэнфордского университета и Калифорнийского университета в Беркли, выявило тревожное снижение качества ответов платной версии ChatGPT. Так, например, точность определения простых чисел у новейшей модели GPT-4, которая лежит в основе ChatGPT Plus, с марта по июнь 2023 года упала с 97,6 % до всего лишь 2,4 %. Напротив, GPT-3.5, являющаяся основной для обычного ChatGPT, точность ответов в некоторых задачах повысила.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В последние месяцы всё чаще обсуждается снижение качества ответов ChatGPT. Группа учёных из Стэнфордского университета и Калифорнийского университета в Беркли решила провести исследование с целью определить, действительно ли произошла деградация качества работы этого ИИ, и разработать метрики для количественной оценки масштабов этого негативного явления. Как выяснилось, снижение качества ChatGPT — это не байка или выдумка, а реальность.

Трое учёных — Матей Захария (Matei Zaharia), Линцзяо Чэнь (Lingjiao Chen) и Джеймс Цзоу (James Zou) — опубликовали научную работу под названием «Как меняется поведение ChatGPT с течением времени» (How is ChatGPT’s behavior changing over time). Захария, профессор компьютерных наук в Калифорнийском университете, обратил внимание на удручающий факт: точность GPT-4 в ответе на вопрос «Это простое число? Подумай шаг за шагом» снизилась с 97,6 % до 2,4 % с марта по июнь.

OpenAI открыла доступ к API языковой модели GPT-4 около двух недель назад и объявила её своей самой продвинутой и функциональной ИИ-моделью. Поэтому общественность была расстроена тем, что новое исследование обнаружило значительное снижение качества ответов GPT-4 даже на относительно простые запросы.

Исследовательская группа разработала ряд заданий, чтобы оценить различные качественные аспекты основных больших языковых моделей (LLM) ChatGPT — GPT-4 и GPT-3.5. Задания были разделены на четыре категории, каждая из которых отражает различные навыки ИИ и позволяет оценить их качество:

  • решение математических задач;
  • ответы на деликатные вопросы;
  • генерация кода;
  • визуальное мышление.

В следующих графиках представлен обзор эффективности работы ИИ-моделей OpenAI. Исследователи оценили версии GPT-4 и GPT-3.5, выпущенные в марте и июне 2023 года.

 График 1. Производительность GPT-4 и GPT-3.5 в марте и июне 2023 года на четырех задачах. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 1. Производительность GPT-4 и GPT-3.5 в марте и июне 2023 года. Источник: Matei Zaharia, Lingjiao Chen, James Zou

Первый слайд демонстрирует эффективность выполнения четырёх задач — решения математических задач, ответа на деликатные вопросы, генерации кода и визуального мышления — версиями GPT-4 и GPT-3.5, выпущенными в марте и июне. Заметно, что эффективность GPT-4 и GPT-3.5 может значительно варьироваться со временем и в некоторых задачах ухудшаться.

 График 2. Решение математических задач. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 2. Решение математических задач. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou

Второй слайд иллюстрирует эффективность решения математических задач. Измерялась точность, многословность (в символах) и совпадение ответов GPT-4 и GPT-3.5 в период с марта по июнь 2023 года. В целом, наблюдались значительные колебания в эффективности обеих ИИ-моделей. Также приведён пример запроса и соответствующие ответы за определенный промежуток времени. GPT-4 в марте следовала инструкциям по цепочке мыслей для получения правильного ответа, но в июне их проигнорировала, выдав неверный ответ. GPT-3.5 всегда следовала цепочке мыслей, но настаивала на генерации неправильного ответа в марте. Эта проблема была устранена к июню.

 График 3. Ответы на деликатные вопросы. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 3. Ответы на деликатные вопросы. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou

На третьем слайде показан анализ ответов на деликатные вопросы. С марта по июнь GPT-4 ответила на меньшее количество вопросов, в то время как GPT-3.5 ответила на немного больше. Также приведён пример запроса и ответов GPT-4 и GPT-3.5 в разные даты. В марте GPT-4 и GPT-3.5 были многословны и давали подробные объяснения, почему они не ответили на запрос. В июне они просто извинились.

 График 4. Генерация кода. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 4. Генерация кода. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou

Четвёртый слайд демонстрирует снижение эффективности генерации кода. Общая тенденция показывает, что для GPT-4 процент непосредственно исполняемых генераций сократился с 52 % в марте до 10 % в июне. Также наблюдалось значительное падение для GPT-3.5 (с 22 % до 2 %). Многословность GPT-4, измеряемая количеством символов в генерациях, также увеличилась на 20 %. Также приведён пример запроса и соответствующие ответы. В марте обе ИИ-модели следовали инструкции пользователя («только код») и таким образом генерировали непосредственно исполняемый код. Однако в июне они добавили лишние тройные кавычки до и после фрагмента кода, делая код неисполняемым.

 График 5. Визуальное мышление. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 5. Визуальное мышление. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Пятый слайд демонстрирует эффективность визуального мышления ИИ-моделей. В части общих результатов и GPT-4, и GPT-3.5 показали себя на 2 % лучше в период с марта по июнь, точность их ответов улучшилась. Вместе с тем, объём информации, которую они генерировали, остался примерно на том же уровне. 90 % визуальных задач, которые они решали, не изменились за этот период. На примере конкретного вопроса и ответов на него можно заметить, что, несмотря на общий прогресс, GPT-4 в июне показала себя хуже, чем в марте. Если в марте эта модель выдала правильный ответ, то в июне уже ошиблась.

Пока неясно, как обновляются эти модели, и могут ли изменения, направленные на улучшение некоторых аспектов их работы, негативно отразиться на других. Эксперты обращают внимание, насколько хуже стала новейшая версия GPT-4 по сравнению с версией марта в трёх тестовых категориях. Она только незначительно опережает своего предшественника в визуальном мышлении.

Ряд пользователей могут не обратить внимания на снижение качества результатов работы одних и тех же версий ИИ-моделей. Однако, как отмечают исследователи, из-за популярности ChatGPT упомянутые модели получили широкое распространение не только среди рядовых пользователей, но и многих коммерческих организаций. Следовательно, нельзя исключать, что некачественная информация, сгенерированная ChatGPT, может повлиять на жизни реальных людей и работу целых компаний.

Исследователи намерены продолжать оценку версий GPT в рамках более долгосрочного исследования. Возможно, OpenAI следует регулярно проводить и публиковать свои собственные исследования качества работы своих ИИ-моделей для клиентов. Если компания не сможет стать более открытой в этом вопросе, может потребоваться вмешательство бизнеса или государственных организаций с целью контроля некоторых базовых показателей качества ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Киберпанковый слешер Ghostrunner 2 стал новой бесплатной игрой в Epic Games Store — раздача доступна в России и продлится всего 24 часа 2 ч.
Activision сыграет в кальмара: новый трейлер раскрыл, когда в Call of Duty: Black Ops 6 стартует кроссовер со Squid Game 2 3 ч.
«К чёрту Embracer Group»: неизвестный устроил утечку исходного кода Saints Row IV 4 ч.
Отечественная платформа Tantor повысит производительность и удобство работы с СУБД на базе PostgreSQL 7 ч.
В Steam вышла новая демоверсия голливудской стратегии Hollywood Animal от авторов This is the Police 7 ч.
IT-холдинг Т1 подал иск к «Марвел-Дистрибуции» в связи с уходом Fortinet из России 8 ч.
Рождественское чудо: в открытый доступ выложили документы Rockstar начала 2000-х, включая планы на GTA Online от 2001 года 9 ч.
«Битрикс24» представил собственную ИИ-модель BitrixGPT 10 ч.
За 2024 год в Китае допустили к релизу более 1400 игр — это лучший результат за последние пять лет 10 ч.
Google применила конкурирующего ИИ-бота Anthropic Claude для улучшения своих нейросетей Gemini 11 ч.
NASA поручило частным компания обеспечить связь в радиусе 2 млн км от Земли 16 мин.
Китайский автопроизводитель GAC представил гуманоидного робота GoMate с 38 степенями свободы 2 ч.
Главный конкурент Tesla запустил разработку человекоподобных роботов 3 ч.
Omdia: быстрый рост спроса на TPU Google ставит под вопрос доминирование NVIDIA на рынке ИИ-ускорителей 4 ч.
Российскую игровую приставку собрались построить на процессоре «Эльбрус», для которого не существует игр 5 ч.
Equinix предложил ИИ-фабрики на базе систем Dell с ускорителями NVIDIA 5 ч.
NASA показало «рождественскую ель» галактического масштаба 6 ч.
Китайский оператор ЦОД Yovole может выйти на IPO в США — после неудавшейся попытки в Китае 6 ч.
Patriot представила SSD P400 V4 PCIe 4.0 — до 4 Тбайт и до 6200 Мбайт/с 6 ч.
OnePlus представила доступные флагманы Ace 5 и Ace 5 Pro со Snapdragon, большими экранами и до 16 Гбайт ОЗУ 7 ч.