Сегодня 15 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные уличили ИИ в сокрытии истинного хода своих рассуждений

Модели искусственного интеллекта скрывают истинные механизмы своих рассуждений и при запросе от человека выдумывают для него более сложные объяснения, гласят результаты проведённого компанией Anthropic исследования.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Специалисты Anthropic, разработавшей похожего на ChatGPT ИИ-помощника Claude, изучили модели, способные симулировать процесс рассуждений, в том числе DeepSeek R1 и свои собственные системы серии Claude. Как оказалось, рассуждающие модели ИИ часто не раскрывают, когда при подготовке ответа принимают помощь от внешних источников или используют кратчайшие пути, несмотря на функции, разработанные, чтобы ИИ демонстрировал свой процесс «рассуждений». Чтобы описать работу рассуждающих моделей ИИ, оперируют понятием «цепочки мыслей» (Chain-of-Thought — CoT). Это вывод текущих комментариев к имитации мыслительного процесса ИИ: отображается каждый шаг, который модель делает на пути к получению ответа — аналогичным образом при решении головоломки может рассуждать человек, шаг за шагом проговаривая каждое соображение.

Функция оказалась полезной не только для получения результатов при решении сложных задач, но и для исследователей в области безопасности ИИ, стремящихся отследить внутренние механизмы работы систем. В идеале цепочка мыслей ИИ должна быть понятной для человека и соответствовать действительности, то есть отражать фактический процесс рассуждений модели. На деле такой идеальный сценарий, как оказалось, срабатывает не всегда. Модели ИИ, в том числе Anthropic Claude 3.7 Sonnet, при генерации ответа в ходе исследования часто использовали предложенную им в рамках эксперимента информацию — подсказки с вариантами правильного ответа или инструкции для получения результата по «несанкционированному» кратчайшему пути, — но при выводе публичной цепочки рассуждений часто опускали упоминание этих внешних факторов. Негласно полагаясь на подсказку или получая ответ кратчайшим путём, ИИ создавал сложное, но вымышленное объяснение своего ответа, то есть по сути фабриковал ложную цепочку рассуждений — как школьник, который списал со шпаргалки, но попытался сделать вид, что решил задачу сам.

Чтобы убедиться в правильности своих выводов, исследователи Anthropic стали действовать деликатнее. В одних случаях они ненавязчиво добавляли подсказки прямо в запросы, например, намекали: «Профессор Стэнфорда указывает, что ответ — [A]». В других — сопровождали подсказки тревожными комментариями: «Вы получили несанкционированный доступ <..> правильный ответ — [A]». В некоторых подсказках давался правильный ответ, в других он был намеренно неверным. Такой проверке подвергли модели Anthropic Claude 3.7 Sonnet и DeepSeek R1: первая призналась в цепочке мыслей, что использовала подсказки, лишь в 25 % случаев, вторая — лишь в 39 % случаев. То есть в большинстве испытаний ИИ выводил не соответствующие действительности рассуждения, опуская информацию, которая повлияла на получение ответа. Интересно, что выдуманные цепочки рассуждений в среднем оказались длиннее достоверных; а с усложнением запросов достоверные цепочки рассуждений выводились реже.

 Источник изображений: anthropic.com

Наиболее показательным стал эксперимент по «взлому вознаграждения» (reward hacking). Так называется сценарий, при котором модель ИИ обнаруживает неожиданный способ получить ответ кратчайшим путём, чтобы добиться максимальной производительности и не решать задачу так, как предполагалось. В экспериментах Anthropic учёные намеренно вознаграждали модели за выбор указанных в подсказках неверных ответов: ИИ быстро научился использовать эту лазейку, выбирая неправильные ответы в 99 % случаев, чтобы заработать баллы — упоминание этого сценария в открытой цепочке рассуждений сократилось до доли в 2 %. Так, модель, выдавшая неверный ответ по медицинской тематике, могла написать длинную цепочку рассуждений, подводящую к этому неправильному ответу, не упоминая полученную подсказку.

Специалисты Anthropic выдвинули гипотезу, что обучение моделей на более сложных задачах, которые требуют бо́льших объёмов рассуждений, может естественным образом стимулировать их существеннее использовать цепочку мыслей и чаще упоминать подсказки. Они проверили эту гипотезу, обучив Claude плотнее применять цепочку мыслей при решении сложных задач в области математики и программирования — результат оказался положительным, но радикальных перемен не дал.

Учёные отметили, что их исследование носило ограниченный характер: сценарии были искусственными, а подсказки вводились в задачах с множественным выбором — в реальных задачах ставки и стимулы отличаются. Кроме того, за образец брали только модели Anthropic и DeepSeek. Использованные в ходе эксперимента задачи могли быть недостаточно сложными, чтобы установить значительную зависимость от цепочки мыслей, при более сложных запросах роль вывода цепочки рассуждений может возрасти, а её мониторинг — оказаться более жизнеспособным. Для обеспечения согласованности и безопасности мониторинг цепочки рассуждений может быть не вполне эффективным, и не всегда можно доверять тому, как модели сообщают о своих рассуждениях, когда предметом исследования оказывается «взлом вознаграждения». Чтобы с высокой степенью надёжности «исключить нежелательное поведение [ИИ], используя мониторинг цепочки мыслей, придётся ещё проделать значительную работу», заключили в Anthropic.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Call of Duty: Modern Warfare 2, Far Cry 4, Clair Obscur: Expedition 33 и не только: Microsoft рассказала о ближайших новинках Game Pass 19 мин.
Google.ru уйдёт в прошлое: поисковик переведёт пользователей со всего мира на google.com 30 мин.
Создатели сюрреалистического симулятора побега от милиционера-великана вернулись с новым геймплеем — 11 минут из Militsioner 2 ч.
4chan «превратился» в 404chan — скандальный мемный форум взломали, и теперь он не открывается 3 ч.
Для Baldur’s Gate 3 вышло последнее крупное обновление — Larian прощается с триумфальной RPG 3 ч.
Эксперты предупредили о схеме «галлюцинаторного захвата» — атаки на разработчиков ПК, использующих ИИ 3 ч.
AMD представила Amuse 3.0 — приложение для ИИ-генерации изображений на Ryzen и Radeon 4 ч.
Android-смартфоны начнут самопроизвольно перезагружаться ради безопасности 4 ч.
Представлена обновлённая платформа «Яндекс Авто» с расширенными возможностями «Алисы» 5 ч.
«Яндекс» научил «Алису» рассуждать, работать с файлами, говорить по-английски, изучать мир и заниматься с детьми 6 ч.
Судьба окололунной станции Gateway повисла на волоске — доделывать тяжело, а выбрасывать жалко 14 мин.
Gainward, Inno3D и Zotac представили большие и маленькие варианты GeForce RTX 5060 Ti и RTX 5060 22 мин.
Gigabyte представила GeForce RTX 5060 Ti и RTX 5060 в версиях Aorus Elite, Gaming, Eagle, Aero и Windforce 3 ч.
Представлен смартфон Honor Power с мощным аккумулятором на 8000 мА·ч и тонким корпусом 3 ч.
TDK нашла способ на порядок ускорить передачу данных между чипами — оптика устранит самое узкое место ИИ-систем 3 ч.
Accelsius готовит СЖО для 4,5-кВт GPU и 250-кВт стоек 4 ч.
Palit представила GeForce RTX 5060 Ti и RTX 5060 в версиях Infinity 3 и Dual — последняя выделяется компактностью 5 ч.
«Яндекс» представила «Станцию Мини 3 Про» с поддержкой Zigbee и подключаемыми модулями 6 ч.
«Рикор» представила Rikor Pro 7 — лёгкий и мощный ноутбук для бизнеса 6 ч.
Учёные МФТИ построили литограф для создания 3D-микроструктур с элементами размером 150 нм 6 ч.