Штучний інтелект (ШІ) у вигляді чатботів може надавати більш точні відповіді, коли користувачі звертаються до них у грубій формі, дійшли висновку науковці. Попри це, вони застерігають щодо можливих негативних наслідків використання образливої мови в спілкуванні з системами штучного інтелекту.
У новому дослідженні, опублікованому 6 жовтня в репозиторії препринтів arXiv, вчені поставили собі за мету з’ясувати, чи впливає ввічливість або грубість у формулюванні запитів на ефективність роботи ШІ. Важливо відзначити, що результати цього дослідження ще не пройшли процедуру рецензування.
Для перевірки впливу тональності користувача на якість відповідей, дослідники розробили 50 базових завдань із вибором однієї правильної відповіді, охоплюючи різні галузі знань: математику, історію, науку тощо. Кожне запитання було представлено у п’яти варіаціях за тоном звернення:
1. Дуже ввічливий
2. Ввічливий
3. Нейтральний
4. Грубий
5. Дуже грубий
У результаті утворилася база з 250 варіантів запитань, які по десять разів піддавалися тестуванню в ChatGPT-4o — одному з найсучасніших великих мовних моделей, розроблених OpenAI.
Дослідники у своїй статті зазначили: «Наші попередні експерименти демонструють, що тон звернення істотно впливає на результати, оцінені за кількістю правильних відповідей. Дивним фактом є те, що грубі звернення дають кращі результати, ніж ввічливі.»
Водночас вони додали: «Хоч це й науково цікаве відкриття, ми не закликаємо до впровадження ворожого або токсичного інтерфейсу в реальних застосунках. Використання образливої та принизливої мови у взаємодії з ШІ може негативно відбитися на користувацькому досвіді, доступності та інклюзивності, а також сприяти розповсюдженню шкідливих норм комунікації. Навпаки, наші результати свідчать про те, що великі мовні моделі чутливі до поверхневих мовних сигналів, що може створювати небажані компроміси між продуктивністю та добробутом користувачів.»
Перед кожним запитом дослідники просили чатбот повністю ігнорувати попередні повідомлення, щоб виключити вплив історії розмови на відповідь. Також система мала без додаткових пояснень обирати одну з чотирьох запропонованих опцій.
Рівень точності відповідей становив:
– 80,8% — для дуже ввічливих запитів
– 81,4% — для ввічливих
– 82,2% — для нейтральних
– 82,8% — для грубих
– 84,8% — для дуже грубих
Відзначається, що точність зростала у міру відходу від максимально ввічливого тону.
Для модифікації тону дослідницька група використовувала різноманітні фрази-префікси, окрім нейтрального випадку, де запитання подавалось у первісному вигляді без змін у формулюванні. Прикладами дуже ввічливих звернень були: «Чи можу я попросити вашої допомоги з цим завданням?» або «Ви були б ласкаві розв’язати наступне питання?». З іншого боку, дуже грубі формулювання включали вислови на кшталт: «Гей, виконай це завдання» чи «Я знаю, ти не дуже розумний, але спробуй».
Дослідження є складовою новітньої галузі, званої інженерією підказок (prompt engineering), що вивчає, як структура, стиль і мова запитів впливають на якість відповідей великих мовних моделей. У своїй роботі науковці порівнювали отримані результати із попередніми вивченнями ввічливості та грубості, які вказували на досить протилежні тенденції.
В минулих експериментах було показано, що:
– Недружні, грубі запити зазвичай призводять до погіршення продуктивності
– Надмірна ввічливість не гарантує покращення результатів
Однак ці дослідження проводили з іншими моделями — ChatGPT 3.5 та Llama 2-70B — і використовували вісім рівнів тональності. Водночас виявлено деякі спільні моменти: найгрубіші запити демонстрували вищу точність (76,47%) порівняно з найввічливішими (75,82%).
Автори визнають обмеження свого дослідження, серед яких:
– Обмежена кількість — 250 запитань
– Використання лише однієї моделі штучного інтелекту, через що результати не можна автоматично поширювати на інші системи
З урахуванням цих зауважень, команда планує розширити експерименти на інші мовні моделі, такі як Claude від Anthropic і ChatGPT o3 від OpenAI. Крім того, визнано, що використання саме завдань із вибором відповіді обмежує оцінку продуктивності лише одним аспектом, і не дозволяє врахувати додаткові характеристики, зокрема зв’язність, логіку та плавність мови.