Від Сократа до ChatGPT: Стародавній урок, який досі не опанували мовні моделі на основі ШІ

Олена Ткач

24 Жовтня, 2025

Хоча сучасні великі мовні моделі (LLM), створені провідними талантами XXI століття, демонструють високий рівень розвитку, вони могли б взяти певний урок в одного з найвидатніших мислителів І століття до нашої ери. Візьмемо, наприклад, Сократа — філософа, якого вважають засновником західної філософії, і який стверджував: «Я знаю, що нічого не знаю». Ця проста фраза підкреслює мудрість усвідомлення меж власних знань.

Проте, попри простоту твердження, подібно до деяких людей, великі мовні моделі мають труднощі з тим, щоб чесно сказати «Я не знаю». Насправді, через особливості їх навчання LLM нерідко не можуть визнати свій брак знань, зазначають дослідники, серед яких професор комп’ютерних наук з Georgia Tech.

Навчання великих мовних моделей передбачає передтренування на величезних масивах текстових, візуальних чи інших даних з метою передбачення наступного слова. Моделі оцінюються й коригуються на основі їх результатів у стандартних тестах, заохочуючи певні відповіді. Водночас сучасні протоколи оцінки карають як неправильні відповіді, так і відсутність відповіді, не допускаючи варіанту «Я не знаю».

За словами професора комп’ютерних наук Сантоша Вемпали, недосконалості на етапах передтренування та посттренування призводять до виникнення у моделей ілюзорних, помилкових відповідей, які називають «галюцинаціями». Вемпала — співавтор дослідження OpenAI під назвою «Чому мовні моделі галюцинують», опублікованого у вересні. Він пояснює, що існує пряма залежність між частотою галюцинацій і рівнем помилкової класифікації достовірності відповіді.

«Інакше кажучи, якщо модель не може відрізнити факт від вигадки, вона галюцинує», — підкреслює Вемпала. – «Проблема зберігається і в сучасних методах посттренування, орієнтованих на узгодження (alignment), котрі базуються на оцінювальних показниках, що карають «Я не знаю» так само суворо, як і неправильні відповіді».

Внаслідок таких покарань за визнання невідомості – якщо парафразувати Сократа – для моделей поточного покоління більш вигідним варіантом є вгадування, а не чесне визнання невизначеності або незнання.

Варто відзначити, що робота OpenAI спирається на раніше проведені дослідження Вемпали та Адама Калая, дослідника OpenAI і провідного автора поточного звіту. Їхні попередні дослідження показали, що галюцинації у великих мовних моделях є математично неминучими для довільних фактів із огляду на існуючі методи тренування.

Пояснюючи цю ідею, Вемпала використовує аналогію з колекцією карток Pokémon: «Якщо у вас величезна колекція карток, то, наприклад, Pikachu знайомий настільки, що ви можете впевнено описати його атаки й здібності. Водночас точне запам’ятовування даних про Pikachu Libre, дуже рідкісну картку, буде значно складнішим».

Він додає: «Якщо у вашій колекції багато унікальних карток, то, ймовірно, у вас відсутня значна частина загального набору, що відповідає оцінці Гуд-Тьюринга».

Подібна логіка стосується і великих мовних моделей зі стандартними протоколами тренування, зазначають Калай і Вемпала. Калай пояснює:

1. «Назви столиць країн зустрічаються в тренувальних даних часто, тому моделі навряд чи надають хибну інформацію з цього приводу».
2. «Натомість дати народження домашніх тварин згадуються рідко — здебільшого один раз».
3. «Через це передтреновані моделі будуть часто «галюцинувати» такі факти. Проте посттренування може й має навчити їх не вгадувати випадковим чином інформацію такого роду».

Вемпала застерігає, що зміна методів передтренування може бути ризикованою, адже вони загалом працюють добре й демонструють точні результати. Проте він і його колеги пропонують низку рекомендацій для зниження частоти галюцинацій, які стосуються етапів оцінки та посттренування моделей.

До ключових пропозицій команди належать:

– надання більшої ваги точності відповідей моделей, а не їхній повноті;
– впровадження так званої «поведінкової калібровки» (behavioral calibration).

Згідно з цією методикою, великі мовні моделі відповідали б лише тоді, коли рівень їхньої впевненості перевищує встановлені порогові значення. Ці пороги налаштовуються для різних сфер використання та типів запитів. Крім того, передбачаються адекватні зменшення покарань за відповіді «Я не знаю», вирази невпевненості і навіть помилкові відповіді.

Вемпала впевнений, що впровадження деяких із цих змін сприятиме створенню мовних моделей, які будуть більш обережними та правдивими. У перспективі це може привести до появи інтелектуальніших систем, здатних ефективніше працювати в складних, багатозначних реальних діалогах.

«Ми сподіваємося, що наші рекомендації сприятимуть довірі до штучного інтелекту», — наголосив Вемпала. – «Втім, для реалізації цих змін у процесах оцінювання необхідна підтримка як з боку AI-компаній, так і користувачів».

Фото: Терренс Рашин, Коледж обчислювальної техніки.

author avatar
Олена Ткач
Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

різне