Перейти до основного вмісту

ЗНО для ChatGPT та інших популярних моделей ШІ поки «не по зубах»: результати дослідження

Українські дослідники протестували ШІ за завданнями ЗНО. Це зробила команда українських дослідників, яка представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою, повідомляє dev.ua.

Результати есперименту

Жодна з моделей не набрала 70% правильних відповідей.

  • 67,5% — у Gemini Pro,
  • Claude 3.5 — 64,3%,
  • Qwen2VL — 51,2%,
  • GPT4o — 47 %.

Випадковий вибір дав би ≈ 22%.

Як тестували

ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей:

  • GPT4o,
  • Claude 3.5 Sonnet,
  • Gemini 1.5 Pro,
  • Qwen2VL72B,
  • Paligemma3B, 
  • донавчену версію PaligemmaFT.

Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ. 

Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання.

У наборі VQAUA (візуальні запитання) моделі дали:

  • Claude — 26,7%,
  • GPT4o — 29%,
  • Qwen2VL — 34,4%.

Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.  

                                                                    

                                                                  Джерело: dev.ua. 

Коментарі