ЗНО для ChatGPT та інших популярних моделей ШІ поки «не по зубах»: результати дослідження

Українські дослідники протестували ШІ за завданнями ЗНО. Це зробила команда українських дослідників, яка представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою, повідомляє dev.ua.

Результати есперименту

Жодна з моделей не набрала 70% правильних відповідей.

67,5% — у Gemini Pro,
Claude 3.5 — 64,3%,
Qwen2VL — 51,2%,
GPT4o — 47 %.

Випадковий вибір дав би ≈ 22%.

Як тестували

ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей:

GPT4o,
Claude 3.5 Sonnet,
Gemini 1.5 Pro,
Qwen2VL72B,
Paligemma3B,
донавчену версію PaligemmaFT.

Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ.

Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання.

У наборі VQAUA (візуальні запитання) моделі дали:

Claude — 26,7%,
GPT4o — 29%,
Qwen2VL — 34,4%.

Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.

Джерело: dev.ua.

Блог вчителя інформатики Білинського ЗЗСО

Шукати в цьому блозі

ЗНО для ChatGPT та інших популярних моделей ШІ поки «не по зубах»: результати дослідження

Мітки

Коментарі

Дописати коментар