ChatGPT і подібні ШІ-моделі провалили тестування ЗНО з України: підсумки аналізу

Українські науковці провели тестування провідних моделей штучного інтелекту (ШІ) на завданнях, які використовуються для оцінювання знань на ЗНО, однак жодна з них не змогла подолати поріг у 70% вірних відповідей. Про це повідомляє медіаресурс dev.ua, посилаючись на результати дослідження.

Розробники розробили платформу ZNOVision – це перший комплексний багатоформатний тест, спрямований на перевірку здатностей штучного інтелекту працювати з українською мовою, а також із навчальним матеріалом і культурними особливостями України.

ZNOVision охоплює понад 4300 завдань, розділених на 13 тематичних категорій, серед яких такі предмети, як фізика, математика, історія та література. Більше ніж половина завдань включає візуальні елементи: схеми, діаграми, карти, ілюстрації.

Для тестування було залучено шість ключових моделей штучного інтелекту:
1. GPT4o;
2. Claude 3.5 Sonnet;
3. Gemini 1.5 Pro;
4. Qwen2VL72B;
5. Paligemma3B;
6. Версію PaligemmaFT.

Обробку запитів і розгортання моделей здійснили з використанням хмарної платформи De Novo. Вона надала доступ до GPU-кластерів у приватній хмарній інфраструктурі, що сертифікована відповідно до вимог державної класифікації засобів захисту інформації (КСЗІ).

У ході експерименту жодна із моделей не змогла набрати понад 70% правильних відповідей.

Найкращі результати показали:
– Gemini Pro з показником 67,5%;
– Claude 3.5 – 64,3%;
– Qwen2VL – 51,2%;
– GPT4o – 47%.

Для порівняння: у випадку випадкового вибору правильних відповідей результат сягнув би у середньому 22%. Найпоширенішими помилками були складнощі із завданнями, що містять текстово-візуальний контент: моделі не завжди розпізнавали українські слова на зображеннях, плутали одиниці виміру, а іноді пропускали частину постановки завдання.

У піднаборі завдань VQAUA, який орієнтований на візуальні питання, моделі продемонстрували такі результати:
– Claude – 26,7%;
– GPT4o – 29%;
– Qwen2VL – 34,4%.

Ці показники суттєво нижчі за англомовні результати, які перевищують 60%. Це свідчить про недостатню підтримку української мови на рівні мультимодальних моделей штучного інтелекту.

Джерело: zaxid.net

Автор

Христина Левченко

Міська репортерша. У центрі її уваги — життя столиці, інфраструктура, влада і люди.
Гасло: «Київ змінюється щодня. Я — фіксую кожну мить».

Автор

У Дніпрі злодій залишив весь будинок без Інтернету | Новини Дніпра

Теніс. Цинциннаті. Результати ключового турніру перед US Open