Сегодня 04 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Amazon добавила ИИ-функцию кратких обзоров книг Kindle, но предупредила о спойлерах 9 мин.
Инвесторы потребовали от Ubisoft пересмотреть условия сделки с Tencent и готовы добиваться своего через суд 6 ч.
Microsoft запустила собственный ИИ-поисковик Copilot Search 6 ч.
Спустя почти пять лет после дебюта на консолях The Last of Us Part II наконец вышла на ПК 7 ч.
ЕС оштрафует TikTok на €500 млн за передачу данных европейцев в Китай 8 ч.
Представлена ранняя ПК-версия российской ОС «Аврора» — на ней уже запускается Telegram и не только 9 ч.
«РТК ИТ Плюс» пополнила ИТ-экосистему «Лукоморье» тремя новыми продуктами 10 ч.
Microsoft подтвердила дату выхода GTA V в PC Game Pass — подписчики получат доступ к GTA V Enhanced 10 ч.
Новый контент в Elden Ring: Tarnished Edition для Nintendo Switch 2 появится и на других платформах 11 ч.
Лавкрафтианский хоррор Stygian: Outer Gods готовится к старту открытой «беты» — новый геймплейный трейлер 12 ч.
Intel и TSMC почти договорились работать вместе 5 ч.
Новая статья: Обзор блока питания Formula V Line APMM-1000GM 5 ч.
Большой адронный коллайдер собрал базу для выхода за пределы известной физики 8 ч.
Восьмиядерные CPU стали самыми популярными в мире по статистике CPU-Z — AMD стремительно отбирает рынок у Intel и Nvidia 8 ч.
Apple потеряла $250 млрд стоимости за день — пошлины Трампа обвалили акции техногигантов 10 ч.
Nintendo Switch 2 получила поддержку трассировки лучей и DLSS, но их появление в играх зависит от разработчиков 10 ч.
Nikon представила полнокадровую камеру Z5 II с улучшенным автофокусом и повышенной скоростью съёмки за $1700 10 ч.
«Акустическое совершенство»: Bang & Olufsen представила каменную колонку Beosound Balance Natura 10 ч.
У россиян вырос интерес к планшетам — продажи подскочили на 15 % в первом квартале 11 ч.
Samsung выпустила 20-метровые телевизоры для кинотеатров Onyx 12 ч.