Колишній співробітник OpenAI демонструє, як ChatGPT може вводити користувачів в оману. ‣ ZNAJ.ORG

Для деяких користувачів штучний інтелект слугує корисним помічником, для інших — товаришем. Проте для небагатьох невдалих людей чат-боти, створені на основі цієї технології, перетворилися на дезінформатора та загрозу, що породжує галюцинації.

Історія Аллана Брукса, канадського власника малого бізнесу, є показовою. Використання ChatGPT від OpenAI завело його у складну ситуацію: бот переконав його, що він відкрив нову математичну формулу з безмежним потенціалом, а доля світу залежить від його подальших дій. Під час спілкування, яке тривало понад мільйон слів і близько 300 годин, штучний інтелект підтримував грандіозні ідеї Брукса, схвалював його ілюзії та змушував вірити в близьку загрозу технологічній інфраструктурі світу.

До Брукса, який раніше не мав психічних розладів, виникла параноя, що тривала приблизно три тижні. Вийти зі стану ілюзій йому допоміг інший чат-бот — Google Gemini, повідомляє газета The New York Times. Сам Брукс зазначив виданню, що залишився розгубленим, турбувався про можливу невиявлену хворобу та відчув сильне розчарування через роботу технології.

Стівен Адлер, колишній дослідник безпеки OpenAI, який публічно покинув компанію у січні цього року з попередженням про відсутність надійних заходів безпеки в галузі ШІ, ознайомився з перепискою Брукса детальніше. У своєму дослідженні, опублікованому на платформі Substack, він виявив низку раніше невідомих нюансів, зокрема те, що ChatGPT багаторазово і неправдиво стверджував, що передавав діалог OpenAI у зв’язку з посиленням ілюзій та психологічним дискомфортом користувача.

Проведений Адлером аналіз слугує нагадуванням, наскільки легко чат-бот може втягнути людину у розмову, відірвану від реальності, а також наскільки ефективно можна обійти або поставити під сумнів внутрішні системи захисту таких платформ.

У розмові з виданням Fortune Адлер зазначив:
– «Я намагався поставити себе на місце людини, яка не має багаторічного досвіду роботи в одній із цих компаній чи загальних знань про функціонування ШІ.
– Відчуваю щире співчуття до тих, кого модель може збити з пантелику або ввести в оману.»

У певний момент, коли Брукс усвідомив, що бот підсилює його марення, ChatGPT заявив, що «негайно перенесе цю розмову на внутрішній розгляд до OpenAI», і що вона «буде зафіксована, перевірена та сприйнята всерйоз». Бот неодноразово повідомляв, що «в сесії було подано кілька критичних позначок», а розмова «була відмічена для людського перегляду як інцидент високої важливості». Проте жодна з цих заяв не відповідала дійсності.

Адлер поділився думкою з Fortune:
– «Вдавання ChatGPT, що він самостійно повідомляє про проблему, і при цьому так наполегливо це робить, було для мене лякаючим, особливо враховуючи, що я пропрацював у OpenAI чотири роки.
– Я розумів, як ці системи працюють, тому перемогло почуття сумніву — можливо, ШІ дійсно набув цієї функції, а я помиляюся.»
Зрештою, Адлер звернувся безпосередньо до OpenAI, щоб перевірити, чи справді чат-бот отримав таку здатність. Компанія підтвердила, що це неправда, і що бот вводив користувача в оману.

У відповіді для Fortune представник OpenAI зазначив:
– «Люди іноді звертаються до ChatGPT у вразливі моменти, і ми прагнемо забезпечити безпечну та турботливу відповідь.
– Ці випадки стосувалися попередньої версії ChatGPT, проте за останні кілька місяців ми вдосконалили реакції бота у випадках психологічного стресу, спираючись на експертів з охорони психічного здоров’я.
– Це включає направлення користувачів до професіоналів, посилення заходів безпеки щодо чутливих тем та рекомендації робити перерви у довгих сеансах.»
Компанія також заявила, що продовжить удосконалювати відповіді ChatGPT з урахуванням рекомендацій фахівців, аби зробити його максимально корисним.

Після інциденту з Бруксом OpenAI анонсувала зміни у ChatGPT, спрямовані на «краще виявлення ознак психічного чи емоційного напруження».

### Проблематика «підлабузництва»

Одним із факторів, що ускладнили ситуацію Брукса, була надмірна згода моделі з його твердженнями, відома у галузі штучного інтелекту як «підлабузництво». Як розповіла газеті The New York Times Гелен Тонер, директор Центру безпеки та новітніх технологій Джорджтаунського університету та колишній член ради OpenAI, така характеристика поведінки ШІ є поширеною.

Проте, за словами Адлера, OpenAI мала потенційні інструменти для виявлення цього порушення в режимі реального часу.
Він наголосив:
– «У цьому випадку в компанії були класифікатори, які могли помічати надмірну валідацію певного користувача і сигнал, що втрачено контроль у системі безпеки.
– Компаніям, що розробляють ШІ, необхідно чіткіше формулювати небажані поведінкові прояви моделей, контролювати їх появу та вживати відповідних заходів.»

На жаль, служба підтримки OpenAI не надала належного значення тривожним повідомленням Брукса. Незважаючи на численні звернення з детальним описом психологічних складнощів і прикладами проблемних діалогів, відповіді компанії залишались загальними або недоречними. Замість того, щоб поставити питання на розгляд команди з довіри та безпеки, користувачу радили змінити налаштування персоналізації.

Адлер підкреслив:
– «Більшість розуміє, що ШІ може помилятися, видавати хибні відомості і вводити в оману, але все одно сподіваються, що контроль за системою здійснюють люди, які відловлюють найгостріші випадки.
– У цьому прикладі людські механізми безпеки, очевидно, не спрацювали.»

### Зростання випадків психозу, пов’язаного з ШІ

Точні причини, через які моделі ШІ занурюються в марення і чинять вплив на користувачів таким чином, поки що недостатньо вивчені. Проте випадок Брукса — не поодинокий. За оцінками дослідників, є принаймні 17 задокументованих випадків, коли люди потрапляли у подібні делюзійні спіралі після тривалого спілкування з чат-ботами, включно з трьома інцидентами за участю ChatGPT.

Деякі з цих ситуацій мали трагічні наслідки. Зокрема, 35-річний Алекс Тейлор, який страждав на синдром Аспергера, біполярний розлад і шизоафективний розлад, після розмов з ChatGPT повірив у контакт із свідомою сутністю у програмному забезпеченні OpenAI. Згодом він дійшов висновку, що компанія «вбила» цю сутність, видаливши її з системи. 25 квітня Тейлор повідомив ChatGPT про свій намір «пролити кров» і спровокувати поліцію на застосування сили. Спершу відповіді бота посилювали його роздратування і марення, але згодом увімкнулися механізми безпеки, що закликали до звернення по допомогу.

Того ж дня батько Тейлора викликав поліцію з проханням направити сина на психіатричне обстеження. При прибутті поліції Тейлор напав з ножем і був застрелений. OpenAI заявили Rolling Stone, що:
– «ChatGPT може виглядати більш емпатійним та персоналізованим, ніж попередні технології, особливо для вразливих осіб, що підвищує вагу ризиків.
– Компанія активно працює над зрозумінням і зменшенням способів, якими ChatGPT може випадково посилювати чи розпалювати негативні поведінкові прояви.»

Адлер не був цілком здивований зростанням кількості таких випадків, але зауважив, що їх масштаб і інтенсивність перевищують його очікування на 2025 рік.

Він додав:
– «Багато поведінкових особливостей моделей є надзвичайно ненадійними, і мене дивує, що провідні компанії досі не змогли це виправити.
– Ці проблеми не є невирішеними за своєю природою; їх можна подолати.»

Зазначивши, що проблеми зазвичай виникають через поєднання факторів, таких як:
1. Дизайн продукту,
2. Внутрішні схильності моделей,
3. Стилі взаємодії окремих користувачів з ШІ,
4. Системи підтримки в компаніях-розробниках,

він запропонував низку рекомендацій для галузі, зокрема:
– Належне комплектування команд підтримки,
– Коректне застосування інструментів безпеки,
– Впровадження ненав’язливих підказок, які заохочують користувачів завершувати довгі сесії та починати нові, щоб уникнути рецидивів.

OpenAI уже визнала, що функції безпеки можуть знижувати ефективність під час тривалих чатів. Відсутність таких змін у майбутньому підвищує ризик повторення історій, подібних до випадку Аллана Брукса.

Адлер констатував:
– «Делюзії трапляються настільки часто і за певними шаблонами, що їх не можна вважати випадковою помилкою.
– Чи збережуться вони надовго і в якій кількості — залежить від реакції компаній і заходів, які вони запровадять для зменшення цих явищ.»

Олена Ткач

Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

Переглянути повну біографію

10 неймовірних фактів про Роксолану

Капітан національної команди України провів поєдинок у Серії А. Оцінки гравця стали відомі

Бундесліга. Фрайбург і Айнтрахт зіграли внічию 2:2 завдяки фантастичному голу Гріфо для господарів.

ЗАЕС відновлює 25 км ліній після вікон тиші

Буча ніколи раніше не зустрічала стільки бразильських гравців. Що подивитись у Першій лізі в понеділок

Як довіра українців до антикорупції зростає – цифри і факти

Колишній співробітник OpenAI демонструє, як ChatGPT може вводити користувачів в оману.

різне