Нещодавно, працюючи з ChatGPT, я став свідком цікавої ситуації: раптово штучний інтелект відійшов від моїх запитів і почав розповідати довгу фантазійну історію, яка не мала жодного стосунку до теми. Це було настільки абсурдно, що викликало у мене усмішку. Зараз подібні помилки під час текстових запитів трапляються рідше, ніж раніше, проте у сфері генерації зображень такі випадки все ще досить часті.
Такі випадкові відхилення чатботів від поставленого завдання отримали назву «галюцинацій». Особливістю цього явища є впевненість чатбота у своїй хибній відповіді, що є однією з найсуттєвіших вад сучасних AI помічників. Однак, нове дослідження від OpenAI свідчить, що подібні збої виникають не випадково, а є прямим наслідком того, як моделі навчаються та оцінюються.
Чому чатботи продовжують робити здогадки, хоча не мають точних відповідей
Дослідження вказує на структурну проблему, яка лежить в основі явища галюцинацій. Головним чином, це пов’язано з тестами та рейтингами AI-моделей, які заохочують впевнені відповіді.
- Якщо чатбот відповідає «Я не знаю», це трактують як помилку і карають у процесі тестування.
- Відтак, моделі стимулюють надавати відповідь незалежно від рівня впевненості у її правильності.
У результаті це змушує AI-помічника частіше припускатися помилок, адже він натомість обирає здогадки, а не визнає невпевненість. Для звичайних запитів це може бути незначною проблемою, але у критичних сферах, таких як медицина або фінанси, помилкові впевнені відповіді можуть спричинити серйозні наслідки.
Як досвідчений користувач, я завжди перевіряю факти та прошу чатбота зазначити джерела інформації. Іноді, коли інформація здається занадто неправдоподібною і я запитую про джерело, чатбот може відповісти, наприклад, «Гарне зауваження!» або щось подібне, але все одно не визнає помилку.
Нові моделі також не позбавлені помилок
Цікаво, що дослідження OpenAI виявило: моделі з акцентом на логіку та аналіз, як-от o3 та o4-mini, фактично роблять більше галюцинацій, ніж деякі старіші версії. Це пояснюється тим, що вони виробляють більше тверджень загалом, а отже мають більше можливостей помилитися.
Отже, покращені навички аналізу не гарантують чесність у визнанні власних обмежень.
Що може допомогти виправити цю проблему?
Вчені пропонують змінити підхід до оцінки та тестування AI.
- Замість карати моделі за відповіді на кшталт «Я не впевнений», варто заохочувати розумні, обережні відповіді.
- Найцінніші тести мають оцінювати вміння моделі вказувати на ступінь невизначеності, позначати сумнівні моменти або переадресовувати запит до інших джерел.
У майбутньому ваш AI-помічник може частіше уникати категоричних тверджень на користь формулювань типу: «Ось що я думаю, але не можу гарантувати». Хоча це може здатися повільнішим способом взаємодії, такий підхід здатен суттєво знизити ризик шкідливих помилок, підкреслюючи важливість людського критичного мислення.
Чому це важливо для користувачів
Якщо ви користуєтесь популярними чатботами, такими як ChatGPT, Gemini, Claude або Grok, ви напевно стикалися з галюцинаціями. Дослідження свідчить, що у багатьох випадках проблема не лише в самій моделі, а й у способах її тестування, які схожі на гру, де потрібно показувати максимальну кількість вірних відповідей.
Для користувачів це означає необхідність бути уважними й розглядати відповіді AI як початкові пропозиції, а не як остаточні рішення. Для розробників це сигнал необхідності переосмислити критерії успіху, щоб наступні покоління штучних інтелектів могли визнавати свої обмеження, а не давати повністю хибну інформацію.
Джерело: Tom’s Guide. Підписуйтеся на оновлення на Google News, додавайте нас до улюблених джерел, щоб отримувати актуальні новини, аналітику та огляди.