OpenAI заявляє, що різні моделі працюють по-різному. Однак мої останні спостереження вказують на те, що навіть при використанні однієї і тієї ж моделі різні режими взаємодії демонструють різну якість результатів.
Основні висновки ZDNET:
- Голосовий режим ChatGPT працює поспішно, віддаючи перевагу швидкості над точністю.
- Веб-версія надає детальні відповіді, тоді як голосовий режим часто плутається і генерує помилкову інформацію.
- Вимкнення розширеного голосового режиму не усуває повністю проблеми.
При використанні голосового режиму ChatGPT як у стандартному, так і в розширеному варіантах точність відповідей значно нижча, ніж у веб-версії. Це пояснюється тим, що ШІ прагне не затримуватися на думках, щоб зберегти темп розмови.
(Примітка: компанія Ziff Davis, материнська компанія ZDNET, у квітні 2025 року подала позов проти OpenAI, звинувачуючи її у порушенні авторських прав Ziff Davis під час навчання та роботи її ШІ-систем.)
Неочікувані вигадки ШІ
У розширеному голосовому режимі ChatGPT трапилась дивна ситуація — Машина вперто заперечувала очевидні факти, подібно до того, як деякі люди, вперті у своїх упередженнях. Ця розмова почалася з питання про фізичні кнопки iPhone 16 Pro Max: я попросив описати функції кнопок. У відповіді ChatGPT згадала про перемикач «дзвінок/тихий» з лівого боку та одну кнопку справа.
Насправді на iPhone 16 Pro Max немає перемикача «дзвінок/тихий», а з правого боку — дві кнопки. Однак найголовніше — те, що ця розбіжність у відповідях демонструє особливості роботи ШІ. Після моєї корекції ШІ спершу вибачалась, але потім почала вигадувати інформацію, зокрема заявляти про наявність підекранного сканера відбитків пальців, чого у iPhone ніколи не було.
Я запропонував ШІ “задуматися”, щоб покращити якість відповіді. Проте це жодним чином не вплинуло на ситуацію — ШІ продовжувала плутати розташування кнопок, а також підтверджувати, що на правому боці лише одна кнопка, ігноруючи існування другої, яка є важливою функцією — кнопкою керування камерою зі слайдером.
Варто підкреслити, що iPhone 16 Pro Max на ринку давно, відповідна інформація мало бути у базі знань ШІ. Однак голосовий режим прагне давати швидкі відповіді в ході розмови, жертвуючи при цьому точністю.
Ключове пояснення:
«Я відповів швидко у режимі розмови, не роблячи пауз, якби я друкувала.»
Це вказує на принципову відмінність підходу голосового режиму.
Веб-версія — детальніша та точніша
Порівняння з GPT-5 у веб-інтерфейсі показало значно ґрунтовніші та, судячи з усього, правильні відповіді. Наприклад, на те ж питання про iPhone веб-версія надала повний опис кнопок із поясненнями.
Суспільний резонанс
Після ідеї розглянути голосовий режим я проаналізував думки користувачів у соцмережах. Вони підтверджують описані недоліки. Зокрема, на підреддіті r/OpenAI:
- Користувач FurlyGhost52 зазначає, що через прагнення швидко відповідати ШІ «не докладає достатньо зусиль у формулюваннях».
- Redditor fakedogman69 описує спілкування з голосовим режимом як «розмову з людиною, яка виглядає неадекватно».
- Інший користувач Usual_Cup2454 звертає увагу, що стандартний голосовий режим використовує персоналізовані інструкції користувача, тоді як розширений ні.
- Soliman-El-Magnifico та Elijah_Reddits висловлюють нарікання на поверхневість відповідей та невідповідність голосу контенту.
Загальна думка — розширений голосовий режим часто менш корисний і природний, ніж базовий.
Чи кращий стандартний голосовий режим?
Вимкнути розширений режим можна через меню налаштувань: профіль → Персоналізація → Розширені параметри → Вимкнення розширеного голосового режиму.
Проте навіть стандартний режим вперто заперечує наявність другої кнопки праворуч на iPhone 16 Pro Max, вважаючи її дизайном, а не функціональною елементом.
Недолік розуміння складних запитань
Я також перевірив, як голосовий режим справляється зі складними логічними завданнями. Запит звучав так:
«Якщо вчора було завтра, то сьогодні буде п’ятниця. Який день сьогодні насправді?»
Це одночасно логічна задача та реальне питання про дату. Голосовий режим наполягав, що сьогодні — четвер та навіть назвав дату — 1 жовтня 2025 року, попри те, що насправді це була середа.
Щоб виправити відповідь, довелося ставити додаткові питання, на що ШІ пояснив, що календар не брешуть і сьогодні — правда, середа.
Натомість GPT-5 у веб-інтерфейсі чітко розділив логічну загадку і реальну дату, надавши правильні відповіді обох частин.
Підсумки дослідження
- Розширений голосовий режим можна вимкнути на користь стандартного.
- У багатьох користувачів Reddit виникає більше довіри до стандартного режиму, ніж до розширеного.
- Відповіді в обох голосових режимах значно менш ретельні та іноді неточні, порівняно з веб-версією.
- Голосовий режим швидко відповідає, скорочуючи час на «роздуми» заради підтримки темпу розмови.
Користувачі надають перевагу точності, а не миттєвості. Тому для важливих або детальних питань краще користуватися веб-версією ChatGPT.
Запитання до аудиторії
Чи помічали ви, що голосовий режим відповідає поспішно або пропускає суттєві деталі у порівнянні з веб-версією? Чи вважаєте ви розширений голосовий режим корисним, або він більше дратує, ніж допомагає? Яку ціну ви готові платити за швидкість у розмові з ШІ?
Для підтвердження цих спостережень я звернувся до OpenAI і готовий оновити цю статтю, якщо отримаю додаткову інформацію.
Додатково:
Будьте в курсі моїх щоденних проєктів через соціальні мережі. Підписуйтеся на щотижневу розсилку новин і слідкуйте за мною у Twitter/X @DavidGewirtz, Facebook (Facebook.com/DavidGewirtz), Instagram (Instagram.com/DavidGewirtz), Bluesky (@DavidGewirtz.com) та YouTube (YouTube.com/DavidGewirtzTV).
Щоб отримувати головні технологічні новини прямо на пошту, підпишіться на Tech Today newsletter.
Фото та ілюстрації надані Elyse Betters Picaro / ZDNET та David Gewirtz / ZDNET.