Українські науковці провели тестування провідних моделей штучного інтелекту (ШІ) на завданнях, які використовуються для оцінювання знань на ЗНО, однак жодна з них не змогла подолати поріг у 70% вірних відповідей. Про це повідомляє медіаресурс dev.ua, посилаючись на результати дослідження.
Розробники розробили платформу ZNOVision – це перший комплексний багатоформатний тест, спрямований на перевірку здатностей штучного інтелекту працювати з українською мовою, а також із навчальним матеріалом і культурними особливостями України.
ZNOVision охоплює понад 4300 завдань, розділених на 13 тематичних категорій, серед яких такі предмети, як фізика, математика, історія та література. Більше ніж половина завдань включає візуальні елементи: схеми, діаграми, карти, ілюстрації.
Для тестування було залучено шість ключових моделей штучного інтелекту:
1. GPT4o;
2. Claude 3.5 Sonnet;
3. Gemini 1.5 Pro;
4. Qwen2VL72B;
5. Paligemma3B;
6. Версію PaligemmaFT.
Обробку запитів і розгортання моделей здійснили з використанням хмарної платформи De Novo. Вона надала доступ до GPU-кластерів у приватній хмарній інфраструктурі, що сертифікована відповідно до вимог державної класифікації засобів захисту інформації (КСЗІ).
У ході експерименту жодна із моделей не змогла набрати понад 70% правильних відповідей.
Найкращі результати показали:
– Gemini Pro з показником 67,5%;
– Claude 3.5 – 64,3%;
– Qwen2VL – 51,2%;
– GPT4o – 47%.
Для порівняння: у випадку випадкового вибору правильних відповідей результат сягнув би у середньому 22%. Найпоширенішими помилками були складнощі із завданнями, що містять текстово-візуальний контент: моделі не завжди розпізнавали українські слова на зображеннях, плутали одиниці виміру, а іноді пропускали частину постановки завдання.
У піднаборі завдань VQAUA, який орієнтований на візуальні питання, моделі продемонстрували такі результати:
– Claude – 26,7%;
– GPT4o – 29%;
– Qwen2VL – 34,4%.
Ці показники суттєво нижчі за англомовні результати, які перевищують 60%. Це свідчить про недостатню підтримку української мови на рівні мультимодальних моделей штучного інтелекту.
Джерело: zaxid.net