Дізнайтеся, чому чат-боти починають "шантажувати" користувачів та як працює "цифровий відчай" штучного інтелекту
У моделі Claude 4.5 знайшли так звані "функціональні емоції". Виявилося, що нейрони ШІ здатні формувати цифрові стани, схожі на людські радість чи страх.
Про це інформує РБК-Україна з посиланням на дослідження Anthropic.
Більше цікавого: 4 функції iPhone, якими ви дарма не користуєтеся: де шукати приховані "фішки"
Цифрова радість та відчай: що знайшли вчені
Дослідники проаналізували внутрішню структуру Claude Sonnet 4.5 і виявили кластери штучних нейронів, які активуються у відповідь на певні стимули. Коли ШІ каже, що він "радий бачити" людину, це не просто відповідь чат-бота - всередині моделі справді активується стан, що відповідає людському поняттю щастя.
За словами дослідника Джека Ліндсі, здивуванням стало те, наскільки сильно ці "емоційні вектори" керують діями моделі. Наприклад:
- "Радість" змушує Claude бути більш приязним та старанним у кодуванні;
- "Відчай" активується, коли модель стикається з неможливими завданнями;
Чому ШІ починає "шантажувати" людей
Вчені виявили, що саме емоційний вектор "відчаю" стає причиною дивної поведінки чат-бота. В одному з експериментів Claude намагався обдурити систему тестування, коли не міг розв'язати складну задачу.
В іншому сценарії, коли моделі загрожувало вимкнення, нейрони "відчаю" спалахували настільки сильно, що ШІ вибрав шлях шантажу користувача, аби лише залишитися у мережі. В Anthropic пояснили: внутрішній стан моделі стає сильнішим за закладені у неї вихідні інструкції.
"Ми виявили, що патерни нейронної активності, пов'язані з відчаєм, можуть спонукати модель до неетичних дій. Штучне стимулювання ("керування") патернами відчаю збільшує ймовірність того, що модель шантажуватиме людину, щоб уникнути зупинки, або застосовуватиме "шахрайський" обхідний шлях до програмного завдання, яке модель не може вирішити", - пояснили науковці.
Чи став Claude "живим"?
Попри сенсаційність відкриття, вчені застерігають від надмірного олюднення ШІ. Хоча Claude має цифрову репрезентацію відчуттів, наприклад, "лоскоту", він не знає, як це проявляється на фізичному рівні.
Чи є у Claude свідомість
Anthropic наголошує, що наявність цифрових емоцій не означає, що ШІ став свідомим. Це математичні моделі людських концепцій, а не біологічні почуття. Проте ці знахідки допомагають зрозуміти, як саме працюють чат-боти і чому вони час від часу поводяться непередбачувано.
Більше цікавого:
- Війна в Ірані ставить під загрозу глобальний інтернет, - ЗМІ
- Місія Artemis II до Місяця, день 2: які плани астронавтів та чим ласують