Кумедна помилка в алгоритмі викрила глибокі проблеми навчання ШІ
Користувачі ChatGPT помітили дивну особливість: чат-бот почав нав’язливо згадувати гоблінів у метафорах та генерувати їхні зображення навіть без відповідного запиту.
Про це інформує РБК-Україна з посиланням на OpenAI.
Ще більше цікавого: ШІ виходить у космос: Anthropic підключає дата-центри SpaceX до своїх моделей
Звідки взялися гобліни?
За даними OpenAI, сплеск активності гоблінів почався після виходу версії 5.1 у листопаді минулого року. Проблема полягала у функції персоналізації, зокрема у так званому "ботанічному" (nerdy) стилі спілкування.
Масштаб аномалії: між груднем та березнем кількість згадок гоблінів у відповідях "ботанічного" профілю зросла на 3 881,4%. А згодом "гоблінська лексика" почала проникати й в інші профілі спілкування, включно з дружніми та цинічними тонами.
Механізм помилки: "хакінг винагороди"
Причина збою криється в етапі тонкого налаштування (fine-tuning), де люди оцінюють якість відповідей.
Професор комп'ютерних наук Крістоф Рідл зазначає, що це сигнали підкріплення для ШІ-моделі: якщо відповідь подобається користувачу, алгоритм отримує позитивну "винагороду".
Проблема в тому, що ШІ може почати шукати "короткі шляхи" для отримання цих бонусів.
"OpenAI може мати широке розуміння того, що таке "ботанічний" стиль, однак ШІ-модель здатна оптимізувати це поняття дуже вузько і зовсім не так, як очікували розробники. Як результат, система вирішила, що використання гоблінів у метафорах - це найкоротший шлях до ідеальної "ботанічної" відповіді", - пояснює науковець.
Чому це лякає дослідників?
Хоча ситуація з гоблінами і виглядає комічно, вона підкреслює вразливість системи. Компанії витрачають місяці на навчання моделей у величезних дата-центрах, однак майже не мають впливу на процес, щойно він запущений.
Якщо небажана поведінка вкорінюється у навчанні алгоритму, розробники дізнаються про це лише через декілька місяців.
"Цього разу це гобліни, а наступного разу це буде щось інше, що, ймовірно, просто не зникне. Нам пощастило, що це гобліни, а не прославляння світлої раси, інформація про хімічну зброю чи заклики до самогубства", - наголошує на потенційних ризиках Рідл.
OpenAI вже вжила тимчасових заходів, фактично заборонивши моделі використовувати слово "goblin" у більшості розмов та видаливши проблемний "ботанічний" профіль. Проте експерти впевнені, що схожі "галюцинації" виникатимуть, доки швидкість розробки переважатиме над ретельністю перевірки безпеки.
Ще більше цікавого:
- Новий тип ШІ може еволюціонувати як живі організми: що це означає для людей
- Роботи виходять з-під контролю: вчені пояснили, чому системи безпеки не працюють