Компанія OpenAI, творець ChatGPT, представила новий інструмент оцінювання, названий GDPval, який має на меті вимірювати ефективність її штучних інтелектів у виконанні «економічно цінних, реальних завдань у 44 професіях».
У супровідній публікації в блозі компанія зазначила: «Люди часто припускають, який вплив штучного інтелекту матиме на суспільство в цілому, але найпряміший спосіб зрозуміти його потенціал — це оцінити, на що вже здатні моделі». OpenAI також підкреслила, що такі оцінювання, як GDPval, допомагають підкріпити дискусії про майбутній розвиток ШІ об’єктивними доказами, а не припущеннями, і сприяють відстеженню покращень моделей з часом.
Ця ініціатива є одним із найбільш прозорих дослідів обґрунтувати фінансову доцільність застосування ШІ-моделей, після численних сумнівів щодо того, чи не стане ця технологія глухим кутом. Фахівці часто критикували надмірно оптимістичний маркетинг компанії, зокрема заяви генерального директора Семюела Олтмана про те, що модель GPT-5 досягла рівня інтелекту, порівнянного з докторським ступенем.
Ранні результати GDPval свідчать, що «сучасні провідні моделі майже досягають якості роботи, яку демонструють галузеві експерти» — це чіткий сигнал критикам, які стверджують, що технологія не відповідає вимогам сучасного ринку праці.
Серед 44 професій, де «штучний інтелект може мати найсуттєвіший вплив на реальну продуктивність», представлені різноманітні спеціальності:
– агенти з продажу нерухомості;
– соціальні працівники;
– промислові інженери;
– розробники програмного забезпечення;
– юристи;
– зареєстровані медсестри;
– представники служб підтримки клієнтів;
– фармацевти;
– приватні детективи;
– фінансові консультанти.
У статті, присвяченій цьому дослідженню, описані конкретні завдання, серед яких:
1. Розробка конкурентного аналізу для доставки останньої милі (для фінансового аналітика);
2. Оцінка зображень шкірних уражень (для зареєстрованої медсестри);
3. Створення рекламного буклету для агента з нерухомості.
Цікавим відкриттям стало те, що найкращою за оцінками галузевих експертів серед 220 завдань виявилася модель Claude Opus 4.1 від конкурента Anthropic, а GPT-5 посіла друге місце, відзначившись особливо високою точністю. Потужніша версія GPT-5, названа GPT-5-high, отримала оцінки «краще або на рівні з результатами експертів» трохи більше ніж у 40% випадків, тоді як GPT-4o, випущена понад рік тому, показала лише 13,7%.
У своїй комунікації OpenAI обережно підходить до теми повної заміни людських робочих місць, натякаючи, що ШІ здатен «підтримувати людей у їхній щоденній праці», а не заявляючи прямо про можливу втрату робочих місць через автоматизацію. Такий підхід пояснюється небажанням створювати негативний імідж, пов’язаний із скороченням зайнятості.
Однак залишається питання, наскільки це є об’єктивним відображенням намірів та кінцевих цілей індустрії. Професіонали в галузі штучного інтелекту давно відкрито говорять про заміну людської праці з метою значного скорочення витрат, що вже починає давати негативні результати для деяких компаній.
Існують також вагомі підстави сприймати результати оцінювання від OpenAI з неабиякою долею скептицизму. Застосування ШІ неодноразово спричиняло проблеми для програмістів, юристів і працівників служб підтримки клієнтів, часто вимагаючи більшої людської уваги, а не меншої.
Однією з ключових проблем залишається феномен «галюцинацій», який серйозно погіршує якість результатів, що генерує велика мовна модель, змушуючи користувачів витрачати значний час на ретельну перевірку інформації. Незважаючи на те, що ШІ здатен генерувати текст у певному стилі у вигляді коротких фрагментів, на триваліших і менш передбачуваних завданнях він часто втрачає контроль.
Як зауважує сама компанія, реальні завдання рідко бувають «чітко визначеними за допомогою запиту і довідкових матеріалів». Вона додає: «Попередні результати GDPval демонструють, що моделі вже можуть виконувати деякі повторювані, чітко сформульовані завдання швидше і дешевше, ніж експерти. Однак більшість професій — це не просто сукупність завдань, описаних у вигляді інструкцій».
Додатково зазначимо, що за темою OpenAI нещодавно NBA-тренер Джей Джей Реддік розповів, що проводить години, спілкуючись зі своїм «другом» ChatGPT.