OpenAI заявляє, що ChatGPT вже може виконувати деякі робочі завдання так само добре, як і люди.

Олена Ткач

2 Жовтня, 2025

Компанія OpenAI активно прагне довести, що штучний інтелект (ШІ) може суттєво допомагати в професійному середовищі, попри те, що низка останніх досліджень свідчить про незначний вплив інвестицій у цю сферу на бізнес-результати. У вівторок розробник ChatGPT оприлюднив звіт із представленням нового стандарту оцінки штучного інтелекту у виконанні «економічно значущих, реальних завдань» у рамках 44 професійних напрямків. Цей інструмент тестування, отримав назву GDPval, і за словами OpenAI, він покликаний забезпечити дискусії навколо застосування ШІ на робочому місці конкретними фактами замість гіперболізованої інформації, а також слідкувати за прогресом моделей з часом.

Даний реліз став своєрідним продовженням доповіді MIT Media Lab, яка показала, що менше 10 % пілотних проєктів ШІ сприяли зростанню доходів, а 95 % організацій фактично не отримали прибутку від своїх інвестицій у ці технології. Недавно ж науковці з BetterUp Labs Гарвардського бізнес-огляду та Соціальної медіа лабораторії Стенфордського університету звинуватили у низькій ефективності явище під назвою «workslop» — це контент, створений штучним інтелектом, який зовні виглядає продуктивною роботою, однак позбавлений суттєвого внеску у виконання завдання.

OpenAI висловлює думку, що GDPval усуває прогалину, притаманну існуючим стандартам оцінки, які зазвичай перевіряють моделі на абстрактних академічних проблемах, а не на повсякденних професійних обов’язках.


Що вимірює GDPval

У своїй офіційній публікації OpenAI пояснює, що назва GDPval має походження від концепції валового внутрішнього продукту (ВВП) — ключового економічного показника, причому для формування завдань були обрані основні професії в індустріях, які найбільше впливають на економіку.

Перша версія тестової платформи охоплює 44 професії у дев’яти галузях, що формують найбільшу частку ВВП США, зокрема нерухомість, урядовий сектор, виробництво та фінанси. Всередині кожної сфери пріоритет був наданий посадам із найвищими зарплатами та компенсаціями, зорієнтованих на інтелектуальну працю.

Щоб створити тестовий набір, OpenAI запросила фахівців із відповідних сфер із середнім досвідом роботи 14 років, щоб вони сконструювали реальні завдання. Кожен експерт надав також зразок виконання цих завдань, написаний людиною. Типові приклади завдань включають:

  • складання юридичного документа,
  • розробку інженерного проекту,
  • обробку запиту клієнта служби підтримки,
  • написання плану догляду медсестри.

У звіті наведено 30 ретельно проаналізованих завдань на кожну професію, а також менший «золотий набір» із п’яти відкритих завдань. Для визначення якості результатів OpenAI залучала експертних оцінювачів — професіоналів із відповідних галузей. Вони анонімно порівнювали матеріали, створені ШІ, з роботами експертів, надаючи рецензії та рейтинги. Кожен результат ранжувався як «кращий», «рівний» або «гірший» за альтернативні варіанти.


Результати дослідження GDPval

Звіт свідчить про те, що провідні моделі ШІ на сьогодні вже наближаються до рівня якості роботи професіоналів-людей.

Випробування 220 завдань із золотого набору GDPval включали порівняння результатів семи провідних моделей із продуктами, створеними фахівцями галузі.

Рейтинг кращих моделей виглядає так:

  1. Claude Opus 4.1 — перше місце з показником перемог і нічиї 47,6 %. Особливо сильна в естетичних аспектах, таких як форматування документів і оформлення презентацій.
  2. GPT-5 high — друга позиція із 38,8 % перемог і нічиї. Основна перевага – точність, включно із ретельним дотриманням інструкцій та правильністю розрахунків.
  3. GPT-4o — остання в списку з 12,4 % показником перемог і нічиї.

Найкраща продуктивність спостерігалася у завданнях, пов’язаних із такими професіями, як касири та працівники прокату, службовці на складі і з приймання вантажів, керівники відділу продажів, а також розробники програмного забезпечення.

Натомість моделі мали складнощі із завданнями для професій:

  • промислових інженерів,
  • медичних інженерів,
  • фармацевтів,
  • фінансових менеджерів,
  • відеоредакторів.

Зокрема, модель Claude Opus 4.1 демонструвала найвищий показник перемог і нічиї (81 %) у завданнях касирів і працівників прокату, а також 76 % — у операціях зі складу та приймання. Найнижчі оцінки отримали завдання промислових інженерів та відео- і кіноредакторів (по 17 %), а також аудіо- та відеотехніків (лише 2 %).

Для OpenAI важливо відзначити, що ці моделі можуть виконувати завдання GDPval приблизно у 100 разів швидше та у 100 разів ефективніше з фінансової точки зору, ніж експерти-люди.

Водночас компанія підкреслює, що навіть із трансформацією ринку праці за допомогою ШІ повна заміна людського фактора не передбачається, адже більшість професій включають не лише перелік завдань, які можна формалізувати.

У підсумку OpenAI підкреслює:

  • GDPval демонструє, де штучний інтелект успішно виконує рутинні завдання,
  • це дозволяє працівникам зосередитись більше на творчих і аналітичних аспектах своєї діяльності.
author avatar
Олена Ткач
Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

різне