Уникайте голосового режиму ChatGPT, якщо вам потрібна точність

OpenAI заявляє, що різні моделі працюють по-різному. Однак мої останні спостереження вказують на те, що навіть при використанні однієї і тієї ж моделі різні режими взаємодії демонструють різну якість результатів.

Основні висновки ZDNET:

Голосовий режим ChatGPT працює поспішно, віддаючи перевагу швидкості над точністю.
Веб-версія надає детальні відповіді, тоді як голосовий режим часто плутається і генерує помилкову інформацію.
Вимкнення розширеного голосового режиму не усуває повністю проблеми.

При використанні голосового режиму ChatGPT як у стандартному, так і в розширеному варіантах точність відповідей значно нижча, ніж у веб-версії. Це пояснюється тим, що ШІ прагне не затримуватися на думках, щоб зберегти темп розмови.

(Примітка: компанія Ziff Davis, материнська компанія ZDNET, у квітні 2025 року подала позов проти OpenAI, звинувачуючи її у порушенні авторських прав Ziff Davis під час навчання та роботи її ШІ-систем.)

Неочікувані вигадки ШІ

У розширеному голосовому режимі ChatGPT трапилась дивна ситуація — Машина вперто заперечувала очевидні факти, подібно до того, як деякі люди, вперті у своїх упередженнях. Ця розмова почалася з питання про фізичні кнопки iPhone 16 Pro Max: я попросив описати функції кнопок. У відповіді ChatGPT згадала про перемикач «дзвінок/тихий» з лівого боку та одну кнопку справа.

Насправді на iPhone 16 Pro Max немає перемикача «дзвінок/тихий», а з правого боку — дві кнопки. Однак найголовніше — те, що ця розбіжність у відповідях демонструє особливості роботи ШІ. Після моєї корекції ШІ спершу вибачалась, але потім почала вигадувати інформацію, зокрема заявляти про наявність підекранного сканера відбитків пальців, чого у iPhone ніколи не було.

Я запропонував ШІ “задуматися”, щоб покращити якість відповіді. Проте це жодним чином не вплинуло на ситуацію — ШІ продовжувала плутати розташування кнопок, а також підтверджувати, що на правому боці лише одна кнопка, ігноруючи існування другої, яка є важливою функцією — кнопкою керування камерою зі слайдером.

Варто підкреслити, що iPhone 16 Pro Max на ринку давно, відповідна інформація мало бути у базі знань ШІ. Однак голосовий режим прагне давати швидкі відповіді в ході розмови, жертвуючи при цьому точністю.

Ключове пояснення:

«Я відповів швидко у режимі розмови, не роблячи пауз, якби я друкувала.»

Це вказує на принципову відмінність підходу голосового режиму.

Веб-версія — детальніша та точніша

Порівняння з GPT-5 у веб-інтерфейсі показало значно ґрунтовніші та, судячи з усього, правильні відповіді. Наприклад, на те ж питання про iPhone веб-версія надала повний опис кнопок із поясненнями.

Суспільний резонанс

Після ідеї розглянути голосовий режим я проаналізував думки користувачів у соцмережах. Вони підтверджують описані недоліки. Зокрема, на підреддіті r/OpenAI:

Користувач FurlyGhost52 зазначає, що через прагнення швидко відповідати ШІ «не докладає достатньо зусиль у формулюваннях».
Redditor fakedogman69 описує спілкування з голосовим режимом як «розмову з людиною, яка виглядає неадекватно».
Інший користувач Usual_Cup2454 звертає увагу, що стандартний голосовий режим використовує персоналізовані інструкції користувача, тоді як розширений ні.
Soliman-El-Magnifico та Elijah_Reddits висловлюють нарікання на поверхневість відповідей та невідповідність голосу контенту.

Загальна думка — розширений голосовий режим часто менш корисний і природний, ніж базовий.

Чи кращий стандартний голосовий режим?

Вимкнути розширений режим можна через меню налаштувань: профіль → Персоналізація → Розширені параметри → Вимкнення розширеного голосового режиму.

Проте навіть стандартний режим вперто заперечує наявність другої кнопки праворуч на iPhone 16 Pro Max, вважаючи її дизайном, а не функціональною елементом.

Недолік розуміння складних запитань

Я також перевірив, як голосовий режим справляється зі складними логічними завданнями. Запит звучав так:
«Якщо вчора було завтра, то сьогодні буде п’ятниця. Який день сьогодні насправді?»

Це одночасно логічна задача та реальне питання про дату. Голосовий режим наполягав, що сьогодні — четвер та навіть назвав дату — 1 жовтня 2025 року, попри те, що насправді це була середа.

Щоб виправити відповідь, довелося ставити додаткові питання, на що ШІ пояснив, що календар не брешуть і сьогодні — правда, середа.

Натомість GPT-5 у веб-інтерфейсі чітко розділив логічну загадку і реальну дату, надавши правильні відповіді обох частин.

Підсумки дослідження

Розширений голосовий режим можна вимкнути на користь стандартного.
У багатьох користувачів Reddit виникає більше довіри до стандартного режиму, ніж до розширеного.
Відповіді в обох голосових режимах значно менш ретельні та іноді неточні, порівняно з веб-версією.
Голосовий режим швидко відповідає, скорочуючи час на «роздуми» заради підтримки темпу розмови.

Користувачі надають перевагу точності, а не миттєвості. Тому для важливих або детальних питань краще користуватися веб-версією ChatGPT.

Запитання до аудиторії

Чи помічали ви, що голосовий режим відповідає поспішно або пропускає суттєві деталі у порівнянні з веб-версією? Чи вважаєте ви розширений голосовий режим корисним, або він більше дратує, ніж допомагає? Яку ціну ви готові платити за швидкість у розмові з ШІ?

Для підтвердження цих спостережень я звернувся до OpenAI і готовий оновити цю статтю, якщо отримаю додаткову інформацію.

Додатково:
Будьте в курсі моїх щоденних проєктів через соціальні мережі. Підписуйтеся на щотижневу розсилку новин і слідкуйте за мною у Twitter/X @DavidGewirtz, Facebook (Facebook.com/DavidGewirtz), Instagram (Instagram.com/DavidGewirtz), Bluesky (@DavidGewirtz.com) та YouTube (YouTube.com/DavidGewirtzTV).

Щоб отримувати головні технологічні новини прямо на пошту, підпишіться на Tech Today newsletter.

Фото та ілюстрації надані Elyse Betters Picaro / ZDNET та David Gewirtz / ZDNET.

Олена Ткач

Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

Переглянути повну біографію

Неочікувані вигадки ШІ

Веб-версія — детальніша та точніша

Суспільний резонанс

Чи кращий стандартний голосовий режим?

Недолік розуміння складних запитань

Підсумки дослідження

Запитання до аудиторії

ЛЄ. Феєнорд – Астон Вілла 0:2: Команда Емері знову святкує перемогу

До втрати м’яча і виходу в меншость матч був рівним

Новий додаток Sora від OpenAI забезпечує остаточне видалення облікового запису, включно з ChatGPT.

Ліга Європи. Генк — Ференцварош 0:1. Угорська команда здобуває перемогу на Сегека-Арені

ЛЄ. Ноттінгем Форест – Мідтьюлланн 2:3. Раніше лісники виграють під проводом Постекоглу, але не в цей раз.

Уникайте голосового режиму ChatGPT, якщо вам потрібна точність – ось причина

Неочікувані вигадки ШІ

Веб-версія — детальніша та точніша

Суспільний резонанс

Чи кращий стандартний голосовий режим?

Недолік розуміння складних запитань

Підсумки дослідження

Запитання до аудиторії

різне