Інженери Apple перевірили можливості найкращих ШІ-моделей, і результати не надихають

Інженери Apple перевірили можливості найкращих ШІ-моделей, і результати не надихають

Більшість моделей демонструють гарні показники міркування тільки в одному тесті (Фото:REUTERS/Dado Ruvic)

Нове дослідження, проведене шістьма інженерами Apple, показало, що мінімальні зміни до галузевого тесту значно знижують ефективність виконання математичних завдань ChatGPT, Llama, Mistral та іншими великими мовними моделями.

Коментарів немає

Читайте також