Сегодня 05 сентября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Bloober Team показала самый атмосферный способ игры в ремейк Silent Hill 2 и графический фильтр с эффектом 90-х 28 мин.
Датамайнеры нашли подозрительные намёки на коровий уровень в Diablo IV — их спрятали в обновлении 2.0 41 мин.
Warner Bros. впервые подтвердила планы на Hogwarts Legacy 2 44 мин.
Рекламодатели массово бегут из X Илона Маска, и ситуация становится только хуже 48 мин.
YouTube запустил функцию родительского контроля теперь и для подростков 8 ч.
В первой половине 2024 года российские игроки начали переходить с PS4 на PS5, но всё равно скупают GTA V 17 ч.
Федерация компьютерного спорта России бросила тень на идею российского аналога FIFA и EA Sports FC 18 ч.
Microsoft отделалась предупреждением по антимонопольному расследованию квазислияния с Inflection AI 19 ч.
Microsoft расскажет 16 сентября о следующей фазе инноваций Copilot 19 ч.
Microsoft начала отключать российские компании от Office 365 и других облачных сервисов 20 ч.
Innodisk представила CXL-модули памяти объёмом 64 Гбайт для ИИ-серверов 2 ч.
В преддверии выпуска Switch 2 расходы Nintendo на исследования и разработку выросли до рекордного уровня 2 ч.
Абоненты МТС смогут звонить через умные колонки «Яндекса», прямо как с телефона 2 ч.
ИИ будет главным двигателем полупроводниковой отрасли в ближайшие несколько лет 2 ч.
Глава ASML: антикитайские санкции США всё больше связаны с экономикой, а не с защитой нацбезопасности 4 ч.
Состоялся последний запуск европейской ракеты Vega — на орбиту выведен спутник ДЗЗ 4 ч.
Volvo отложила полный переход на электромобили на 10 лет — гибриды останутся до 2040 года как минимум 6 ч.
Новый стандарт Bluetooth 6.0 обещает точность позиционирования вплоть до сантиметра 6 ч.
Nvidia подтвердила получение запроса от Минюста США, но он не был юридически обязывающим 8 ч.
GoPro анонсировала экшн-камеры Hero и Hero 13 Black по цене $199 и $399 соответственно 8 ч.