Какой из ИИ лучше решает простые задачи по математике?

Лучше всего справляется калькулятор

Какой из ИИ лучше решает простые задачи по математике?

Учёные протестировали популярные ИИ — ChatGPT, Gemini, Grok, Claude и Copilot — на умение решать простые математические задачи. Речь шла не о сложных уравнениях, а о базовой арифметике и вычислениях, с которыми пользователи сталкиваются в повседневной жизни.

Как тестировали

Моделям задавали одинаковые вопросы: сложение, вычитание, проценты, простые дроби и логические расчёты. Оценивалась не скорость, а точность ответов — правильно ли ИИ считает без дополнительных уточнений и исправлений.

Результаты

Лучшие результаты показали ChatGPT и Gemini, они чаще давали корректные ответы без ошибок. Grok и Copilot справлялись нестабильно, а Claude чаще допускал неточности в элементарных вычислениях.

Контекст

Ошибки в простой математике остаются одной из уязвимостей языковых моделей. Даже при хорошем владении текстом ИИ может галлюцинировать в числах, что особенно заметно в бытовых задачах — расчётах скидок, времени или пропорций.

Что это значит

Тест показывает, что ИИ по-прежнему нельзя безоговорочно доверять даже в базовых вычислениях. Ответы всё ещё стоит перепроверять, особенно когда речь идёт о деньгах или данных.

Автор: Анна Грабарчук
Соцсети: Юлия Зубарева
Через год — лучше работа, выше зарплата
В «Яндекс Практикуме» становятся разработчиками с нуля. Выберите язык — веб, Python, Java, C++ — и учитесь. Джуны зарабатывают от 80 000 ₽, мидлы — от 150 000 ₽. Дальше — программы трудоустройства и компенсация, если пойдёте в Яндекс.
Вам может быть интересно
easy
[anycomment]
Exit mobile version