Українські дослідники протестували ШІ за завданнями ЗНО. Це зробила команда українських дослідників, яка представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою, повідомляє dev.ua.
Результати есперименту
Жодна з моделей не набрала 70% правильних відповідей.
- 67,5% — у Gemini Pro,
- Claude 3.5 — 64,3%,
- Qwen2VL — 51,2%,
- GPT4o — 47 %.
Випадковий вибір дав би ≈ 22%.
Як тестували
ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.
До тестування залучили шість основних моделей:
- GPT4o,
- Claude 3.5 Sonnet,
- Gemini 1.5 Pro,
- Qwen2VL72B,
- Paligemma3B,
- донавчену версію PaligemmaFT.
Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ.
Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання.
У наборі VQAUA (візуальні запитання) моделі дали:
- Claude — 26,7%,
- GPT4o — 29%,
- Qwen2VL — 34,4%.
Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.
Джерело: dev.ua.
Коментарі
Дописати коментар