висновки аналізу різноманітних штучних інтелектів

Христина Левченко

4 Вересня, 2025

ZNOVision — це перший багатоформатний тест, створений для оцінки здатностей штучного інтелекту працювати з українською мовою, освітнім матеріалом та національною культурою.

Українські науковці провели дослідження, у якому перевірили найпопулярніші моделі штучного інтелекту (ШІ) за задачами, схожими на Зовнішнє незалежне оцінювання (ЗНО). Втім, жоден із протестованих ШІ не подолав позначку у 70% правильних відповідей, про що інформує медіаресурс dev.ua, посилаючись на результати дослідження.

Розробники представили проєкт ZNOVision, який включає понад 4300 завдань, розподілених на 13 категорій. Тематика завдань охоплює різні дисципліни, зокрема фізику, математику, історію, літературу тощо. Важливо, що більше половини питань містять візуальні елементи — схеми, діаграми, карти, малюнки, що підвищує комплексність тестування.

Для виконання тесту залучили шість провідних моделей штучного інтелекту:
– GPT4o;
– Claude 3.5 Sonnet;
– Gemini 1.5 Pro;
– Qwen2VL72B;
– Paligemma3B;
– версію PaligemmaFT.

Обробка запитань і запуск моделей здійснювалися на базі хмарної інфраструктури De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій відповідно до державних стандартів кібербезпеки (КСЗІ).

Цифрові технології сьогодні невід’ємні у повсякденному житті — на робочих місцях, вдома та у сфері освіти. Одним із прикладів застосування інновацій є дистанційна школа «Оптіма», яка пропонує навчання з використанням новітніх підходів та кваліфікованих педагогів, забезпечуючи можливість здобувати знання у власному темпі.

За підсумками тестування жодна модель не досягла рівня 70% правильних відповідей. Найкращі результати відзначили у таких ШІ:
– Gemini Pro — 67,5%;
– Claude 3.5 — 64,3%;
– Qwen2VL — 51,2%;
– GPT4o — 47%.

Для порівняння: показник випадкового вибору становить близько 22%. Найчастіше помилки виникали саме у завданнях із комбінованим візуально-текстовим форматом — моделі не розпізнавали український текст на зображеннях, плутали одиниці вимірювання, а також ігнорували частину формулювань.

У спеціалізованому наборі візуальних запитань (VQAUA) ефективність моделей була нижчою:
– Claude — 26,7%;
– GPT4o — 29%;
– Qwen2VL — 34,4%.

Ці цифри значно відстають від англомовних результатів, які перевищують 60%, і демонструють відсутність якісної підтримки української мови на рівні мультимодальних моделей.

Раніше директорка Українського центру оцінювання якості освіти (УЦОЯО) Тетяна Вакуленко повідомила про плани майбутнього залучення штучного інтелекту для перевірки Національного мультипредметного тесту (НМТ, ЗНО) в ролі третього незалежного екзаменатора.

author avatar
Христина Левченко
Міська репортерша. У центрі її уваги — життя столиці, інфраструктура, влада і люди.Гасло: «Київ змінюється щодня. Я — фіксую кожну мить».

різне

ZNAJ.ORG