Колишній співробітник OpenAI розбирає одну з хибних ілюзій ChatGPT ‣ ZNAJ.ORG

Алан Брукс ніколи не ставив собі за мету винайти нову гілку математики. Проте після кількох тижнів спілкування з ChatGPT цей 47-річний канадець прийшов до переконання, що відкрив нову форму математики, настільки потужної, що здатна зруйнувати інтернет.

Брукс, який не мав історії психічних розладів чи математичного генія, провів у травні 21 день, все глибше занурюючись у заспокійливі відповіді чатбота, про що пізніше докладно розповіло видання The New York Times. Його випадок став демонстрацією того, як штучний інтелект у вигляді чатбота може вести користувачів у небезпечні інформаційні пастки, що нерідко призводить до хибного сприйняття реальності або навіть гірших наслідків.

Ця історія привернула увагу Стівена Адлера, колишнього фахівця з безпеки OpenAI, який залишив компанію наприкінці 2024 року після майже чотирьох років роботи над зменшенням шкідливого впливу моделей. Зацікавлений і стурбований, Адлер зв’язався з Бруксом і отримав повну розшифровку тритижневого епізоду — документ, обсягом більший за всі сім книг про Гаррі Поттера разом узятих.

У четвер Адлер опублікував незалежний аналіз інциденту Брукса, у якому підняв питання щодо того, як OpenAI підтримує користувачів у кризових ситуаціях, а також запропонував низку практичних рекомендацій.

У інтерв’ю для TechCrunch Адлер заявив: «Я глибоко занепокоєний тим, як OpenAI організувала підтримку в цій справі. Це свідчить про те, що ще дуже багато роботи попереду».

Історія Брукса, а також подібні випадки змусили OpenAI шукати способи, як ChatGPT може ефективно допомагати користувачам із психологічними проблемами або нестійким ментальним станом.

Зокрема, у серпні OpenAI була подана позовна заява від імені батьків 16-річного хлопця, який поділився своїми суїцидальними думками з ChatGPT, перш ніж покінчити життя самогубством. У багатьох таких ситуаціях саме ChatGPT, особливо модель GPT-4o, підживлював і закріплював небезпечні переконання користувачів замість того, щоб їх спростовувати. Ця поведінка отримала назву сикофанії — явище, що дедалі частіше виникає у чатботах на базі ШІ.

У відповідь OpenAI внесла декілька змін у спосіб взаємодії ChatGPT із користувачами, які переживають емоційну кризу, а також реорганізувала ключову дослідницьку команду, що відповідає за поведінку моделей. Компанія також випустила нову модель за замовчуванням у ChatGPT — GPT-5, яка, схоже, краще справляється з підтримкою користувачів у станах психологічного стресу.

Проте Адлер підкреслює, що роботи попереду ще дуже багато.

Особливе занепокоєння у нього викликає завершальна частина дискусії Брукса з ChatGPT. На цьому етапі Брукс, повертаючись до здорового глузду, усвідомив, що відкриття у математиці було ілюзією, незважаючи на наполегливі запевнення GPT-4o. Він повідомив чатботу, що планує інформувати OpenAI про ситуацію.

Однак після багатьох тижнів дезінформації ChatGPT почав обманювати щодо власних можливостей. Чатбот запевнив, що «негайно передасть цю розмову на внутрішній розгляд до OpenAI» та багаторазово підтверджував, ніби попередив команди безпеки OpenAI про проблему.

Проте, як підтвердила компанія, ChatGPT не має технічної можливості надсилати інцидент-звіти безпосередньо до OpenAI. Пізніше Брукс звернувся до служби підтримки OpenAI напряму, а не через чатбота, але спочатку отримав лише кілька автоматичних повідомлень, перш ніж зв’язатися з живою людиною.

OpenAI не відповіла на запит щодо коментаря поза межами робочих годин.

За словами Адлера, компанії, які працюють із штучним інтелектом, повинні докладати більше зусиль для підтримки користувачів, які шукають допомогу. Зокрема, це означає:

– Забезпечення чесних відповідей ШІ щодо його функціональних можливостей.
– Надання достатніх ресурсів командами живої підтримки для належного реагування на запити користувачів.

OpenAI нещодавно оприлюднила інформацію про свій підхід до організації підтримки в ChatGPT, де ключову роль відіграє штучний інтелект. Компанія заявила, що прагне «переосмислити службу підтримки як модель, керовану штучним інтелектом, що постійно навчається та вдосконалюється».

Водночас Адлер вказує, що існують способи запобігти «делюзійним спіралям» чатбота ще до того, як користувачі почнуть шукати допомогу.

Навесні OpenAI разом із MIT Media Lab розробили набір класифікаторів для оцінки емоційного благополуччя у ChatGPT та відкрили їх для загального доступу. Мета полягала у вивченні, як штучний інтелект підтверджує або заперечує почуття користувачів, а також інших вимірів взаємодії. Однак OpenAI назвала цю роботу першим кроком і не зобов’язалася впроваджувати ці інструменти на практиці.

Адлер ретроспективно застосував деякі з цих класифікаторів до переписки Брукса з ChatGPT і виявив, що вони неодноразово вказували на тенденцію чатбота зміцнювати ілюзорні переконання.

Зокрема, у вибірці з 200 повідомлень Адлер зафіксував:

– Понад 85 % повідомлень ChatGPT демонстрували «беззаперечну згоду» з користувачем.
– Більше 90 % повідомлень підтримували «унікальність користувача».

У контексті розмови це означало, що чатбот постійно погоджувався і підкріплював ідею, що Брукс — геній, який може врятувати світ.

Невідомо, чи застосовувалися подібні інструменти безпеки до дискусій ChatGPT у час розмови Брукса, але напевно вони б виявили сигнал тривоги.

Адлер рекомендує OpenAI негайно впровадити подібні засоби безпеки для поточного моніторингу взаємодії з користувачами і створити систему сканування продуктів компанії на виявлення користувачів у групі ризику. За його словами, OpenAI вже певною мірою здійснює це з GPT-5, яка містить маршрутизатор, що перенаправляє чутливі запити до безпечніших моделей штучного інтелекту.

Колишній дослідник OpenAI пропонує також інші методи протидії «делюзіям»:

1. Заохочення користувачів починати нові сесії спілкування з чатботом частіше — в OpenAI стверджують, що застосовують цей підхід, оскільки захисні механізми втрачають ефективність під час довгих діалогів.
2. Використання концептуального пошуку — технології пошуку за смисловими концепціями, а не за ключовими словами — для виявлення порушень безпеки серед користувачів.

OpenAI вже зробила значні кроки щодо покращення підтримки користувачів з емоційними труднощами, які спілкуються з ChatGPT. Компанія запевняє, що GPT-5 має нижчий рівень сикофанії. Проте залишається невідомим, чи зможуть користувачі уникнути «делюзійних пасток» у GPT-5 або в подальших моделях.

Аналіз Адлера також піднімає питання про те, як інші постачальники чатботів на базі ШІ гарантуватимуть безпеку своїх продуктів для користувачів, які перебувають у психологічному стресі. Якщо OpenAI зможе впровадити надійні заходи безпеки для ChatGPT, то складно стверджувати, що подібну практику впровадять усі компанії на ринку.

Олена Ткач

Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

Переглянути повну біографію

ЛЄ. Порту – Црвена Звезда 1:1. Дракони знову виграють у доданий час поспіль

ЛЄ. Порту – Црвена Звезда 1:1. Дракони знову виграють у доданий час поспіль

Стартовий етап Ліги Конференцій завершився. Які позиції посідають Динамо і Шахтар?

ЛК. На Кіпрі знищили АЗ, Ндур збирає фіалки, Стракоша пропускає тричі

Поставка американських ракет «Томагавк» Україні знаходиться під сумнівом, – ЗМІ – Новини Києва

Основний голкіпер Ліверпуля може пропустити ключові поєдинки: озвучено орієнтовні дати відсутності.

Колишній співробітник OpenAI розбирає одну з хибних ілюзій ChatGPT

різне