Більшість моделей демонструють гарні показники міркування тільки в одному тесті (Фото:REUTERS/Dado Ruvic)
Нове дослідження, проведене шістьма інженерами Apple, показало, що мінімальні зміни до галузевого тесту значно знижують ефективність виконання математичних завдань ChatGPT, Llama, Mistral та іншими великими мовними моделями.
Коментарів немає