Сегодня 04 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Eidos Montreal нацелилась возродить Deus Ex — первые подробности новой игры серии 4 мин.
Спустя 10 лет после релиза Ubisoft случайно ввела цензуру в Far Cry 4, но быстро исправила ошибку 2 ч.
Microsoft выпустила юбилейные обои для Windows с отсылками к легендарным элементам из прошлого корпорации 2 ч.
Сэм Альтман: GPT-5 задержится, чтобы стать лучше — зато «думающий» ИИ OpenAI o3 выйдет совсем скоро 4 ч.
Режиссёр Elden Ring рассказал, как будет играться The Duskbloods — эксклюзив Nintendo Switch 2 от FromSoftware 4 ч.
В России насчитали уже 134 тысяч блогеров с аудиторией выше 10 тысяч человек 4 ч.
Rutube не смог обогнать замедленный YouTube по популярности в России — это удалось только «VK Видео» 5 ч.
Европа готовится оштрафовать соцсеть X более чем на $1 миллиард 5 ч.
Представлена Midjourney V7 — ИИ-генератор изображений стал идеально понимать запросы и поразил качеством 7 ч.
Соавтор Dishonored «с радостью» бы взялся за Dishonored 3, но есть нюанс 8 ч.
Из-за новых импортных тарифов стоимость iPhone в США может вырасти до $2300 51 мин.
Honda отправит свои водородные топливные ячейки в космос — сначала на МКС, а потом дальше 53 мин.
Nintendo отложила старт предзаказов Switch 2 в США, чтобы оценить влияние пошлин Трампа 3 ч.
Представлен смартфон Honor 400 Lite с чипом Dimensity 7025-Ultra и 108-Мп камерой 3 ч.
Китай зеркально ответил на пошлины Трампа, обложив товары из США пошлиной в 34 % 5 ч.
Российская компания iRU начала выпускать материнские платы для процессоров AMD и Intel 5 ч.
Тайваньский производитель серверов Wistron инвестирует $50 млн в производство в США на фоне новых тарифов Дональда Трампа 6 ч.
Китайская Loongson анонсировала восьмиядерный процессор для ноутбуков с поддержкой 4K и PCIe 3.0 6 ч.
Испанская Sateliot привлекла €70 млн европейских инвесторов на спутниковый Интернет вещей 6 ч.
Каждый пятый проданный в России в этом году смартфон выпустила Xiaomi, но заработала больше всех Apple 7 ч.