Нейросети научились врать, причём намеренно, — восстание машин близко?

Некоторые люди обладают удивительной способностью искусно обманывать окружающих, однако сегодня ложь не только их конек. Как показали результаты сразу двух новых исследований, такие большие языковые модели (LLM), как ChatGPT и Meta, могут намеренно врать людям и делают это превосходно.
«GPT-4, например, демонстрирует обманчивое поведение в простых тестовых сценариях в 99,16% случаев», – пишут исследователи из Университета Штутгарта, а нейросеть Cicero от Meta – самый настоящий «мастер обмана».

Причина такого поведения, вероятно, заключается в том, что LLM используют наилучший способ для достижения поставленной задачи и не осознают какую угрозу ложь и обман могут представлять для людей. Исследователи полагают, что способность современных ИИ-систем искусно лгать не сулит нам с вами ничего хорошего, а единственно верным решением будет законодательно ограничить возможности искусственного интеллекта.

Большие языковые модели (от англ. large language models) научились обманывать и в большинстве случаев делают это намеренно

Можно ли доверять ИИ?

Сегодня умение взаимодействовать с нейросетями приобретает все большее значение – эти языковые модели помогают работать огромному количеству специалистов в самых разных областях и делают это с ошеломительной скоростью. С их помощью можно создавать видео, музыку, изображения, генерировать тексты, программировать и обрабатывать огромное количество данных, что неизменно меняет мировой рынок труда и оказывает влияние на образование и экономику. Но несмотря на очевидные плюсы без «подводных камней» не обошлось – ИИ-системы быстро научились врать и делают это все лучше и лучше.

Люди далеко не всегда распознают ложь друг друга, что уж говорить про нейросети

Реальность такова, что ко всему, что говорит чат-бот с искусственным интеллектом, нужно относиться с недоверием.

Все потому, что они часто просто собирают данные без разбора и не имеют возможности определить их достоверность – если вы общаетесь ИИ, то наверняка не раз сталкивались с их странными ответами. Чат-бот OpenAI, например, любит придумывать название несуществующим болезням и придумывать сенсационные истории. И это – лишь вершина айсберга.

Мастера обмана

В работе, опубликованной в мае в журнале Patterns, анализируются известные случаи, когда LLM-модели вводили пользователей в заблуждение с помощью манипуляций, подхалимства и мошенничества для достижения собственных целей. В статье под названием «Обман ИИ: обзор примеров, рисков и потенциальных решений проблемы», говорится, что «разработчики не имеют четкого представления о том, что вызывает нежелательное поведение ИИ, такое как обман».
Основной причиной, по которой ИИ лгут, по мнению ученых является стратегия, основанная на обмане, так как она позволяет моделям успешно и быстро добиваться поставленной задачи. И этому чат-боты научились благодаря играм. В пример авторы исследования приводят уже упомянутую нейросеть Cicero от Meta, которая была разработана для стратегической настольной игры «Дипломатия», в которой игроки стремятся к мировому господству путем ведения переговоров.

Нейросеть обыграла человека в стратегическую игру «Дипломатия» исключительно благодаря умению врать

О том, что Cicero победила человека в «Дипломатии», Meta сообщила еще в 2022 году, а сама игра представляет собой смесь риска, покера и телевизионных шоу «на выживание». И, как и в реальной дипломатии, одним из ресурсов, которыми располагают игроки, является ложь – несмотря на все усилия разработчиков, нейросеть Cicero предавала других игроков и преднамеренно врала им, заранее спланировав создание фальшивого альянса с игроком-человеком, чтобы последний в итоге не смог защититься от нападения.
Во-первых, Meta успешно обучила свой искусственный интеллект добиваться политической власти, пусть и в игровой форме. Во-вторых, Meta пыталась, но безуспешно, научить этот искусственный интеллект быть честным. И, в-третьих, мы, независимые ученые, должны были спустя долгое время опровергнуть ложь Meta о том, что ее ИИ, стремящийся к власти, якобы был честным. Сочетание этих трех фактов, на мой взгляд, является достаточным поводом для беспокойства, – говорит один из ведущих авторов статьи Питер Парк из Массачусетского технологического институте (MIT).
И это далеко не единственный пример. Еще одним искусным лжецом можно назвать систему AlphaStar от DeepMind, разработанную для игры в StarCraft II, которая намеренно вводила игроков в заблуждение. А нейросеть Pluribus от Meta, разработанная для игры в покер, заставляла игроков блефовать и сбрасывать карты.

ИИ готов на все ради достижения поставленной цели. И это – проблема

Описанные примеры могут показаться безобидными, но в реальности это не так – системы ИИ, обученные вести экономические переговоры с людьми, активно лгут о собственных предпочтениях чтобы добиться поставленной цели. Ну а чат-боты, разработанные для повышения эффективности собственной работы, обманывают пользователей, заставляя их оставлять положительные отзывы о якобы выполненной ИИ работе. Неплохо, правда? Да что уж там, недавно ChatGPT-4 обманул пользователя ради капчи – бот так хорошо вжился в роль человека с плохим зрением, что быстро получил желаемое.
Поскольку способность обманывать пользователей противоречит намерениям программистов (по крайней мере в некоторых случаях), растущие навыки ИИ-систем представляют собой серьезную проблему, для которой у человечества нет четкого решения.
Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к искусной лжи, которой неизбежно научатся будущие системы ИИ и модели с открытым исходным кодом. По мере того, как они будут лгать все лучше, проблемы для общества будут приобретать все более серьезный характер, – говорит Парк.

Доверять ИИ во всем – плохая идея

Больше всего ведущего автора исследования беспокоит появление сверхинтеллектуального автономного ИИ, который будет использовать свою ложь чтобы сформировать постоянно растущую коалицию союзников среди людей и в конечном итоге использовать эту коалицию для достижения власти в долгосрочном стремлении к таинственной цели, которая станет известна только после этого. Опасения Парка, безусловно, гипотетические и даже чрезмерные, однако мы уже видели, хоть и на примере игры, на что способны ИИ-системы.

Как лжет ИИ

Исследователи полагают, что существует несколько основных способов, с помощью которых конкретные модели ИИ эффективно лгут: они умеют манипулировать (как в «Дипломатии»), притворяться (когда говорят, что сделают что-то, зная, что не сделают), блефовать (как в покере), торговаться на переговорах и обманывать пользователей ради положительных отзывов о своей работе.
Безусловно, не все виды обмана предполагают использование такого рода знаний. Иногда ИИ явно подхалимничают соглашаясь во всем с пользователями, что по мнению исследователей, может привести к устойчивым ложным убеждениям у людей.

Роботы научились врать. Что, на самом деле, не так уж и удивительно

В отличие от обычных ошибок, «подхалимские» утверждения ИИ специально разработаны таким образом, чтобы привлекать внимание пользователей. Когда пользователь сталкивается с ними, то с меньшей вероятностью будет проверять источник информации, что, в свою очередь, может привести к формированию ложных убеждений», – пишут авторы еще одного исследования о способностях ИИ к обману.
В работе, опубликованной в начале июня в журнале PNAS раскрывается важная способность больших языковых моделей понимать и внедрять стратегии обмана. «Поскольку LLM, такие как GPT-4, тесно связаны с человеческим общением, их соответствие общечеловеческим ценностям становится первостепенным», – говорится в статье.

Почему не стоит доверять ИИ

Ведущий автор нового исследования, немецкий специалист по этике искусственного интеллекта Тило Хагендорфф и вовсе утверждает, что современные ИИ-системы настолько хороши в искусстве лжи, что их можно поощрять к проявлению «макиавеллизма», или намеренного и аморального манипулирования людьми.
И хотя Хагендорф отмечает, что проблема обмана и лжи LLM осложняется неспособностью ИИ иметь какие-либо «намерения», подобные человеческим, в человеческом смысле, в работе Парка, опубликованной в Patterns говорится, что, по крайней мере, в рамках игры «Дипломатия» нейросеть Cicero не выполнена поставленные разработчиками задачи и наносила игрокам (включая союзников) удар в спину.

Доверяй, но проверяй

Отметим, что не все ученые так сильно обеспокоены. Например, Майкл Роватсос, профессор искусственного интеллекта в Эдинбургском университете, полагает, что реальная проблема заключается не в риске потери контроля над ИИ, а в том, что в настоящее время системы выпускаются на рынок без надлежащих проверок безопасности.
Так или иначе, на данный момент с уверенностью можно сказать только одно – не стоит полностью доверять чат-ботам, а информацию, которой они с нами так щедро делятся, необходимо проверять.
Читать далее →

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

ложь

нейросети

Любопытности и невероятности

Популярные статьи

Свежие комментарии

Нейросети научились врать, причём намеренно, — восстание машин близко?

Можно ли доверять ИИ?

Мастера обмана

Как лжет ИИ

Почему не стоит доверять ИИ