Какой из ИИ лучше решает простые задачи по математике?

Лучше всего справляется калькулятор

Учёные протестировали популярные ИИ — ChatGPT, Gemini, Grok, Claude и Copilot — на умение решать простые математические задачи. Речь шла не о сложных уравнениях, а о базовой арифметике и вычислениях, с которыми пользователи сталкиваются в повседневной жизни.

Как тестировали

Моделям задавали одинаковые вопросы: сложение, вычитание, проценты, простые дроби и логические расчёты. Оценивалась не скорость, а точность ответов — правильно ли ИИ считает без дополнительных уточнений и исправлений.

Результаты

Лучшие результаты показали ChatGPT и Gemini, они чаще давали корректные ответы без ошибок. Grok и Copilot справлялись нестабильно, а Claude чаще допускал неточности в элементарных вычислениях.

Контекст

Ошибки в простой математике остаются одной из уязвимостей языковых моделей. Даже при хорошем владении текстом ИИ может галлюцинировать в числах, что особенно заметно в бытовых задачах — расчётах скидок, времени или пропорций.

Что это значит

Тест показывает, что ИИ по-прежнему нельзя безоговорочно доверять даже в базовых вычислениях. Ответы всё ещё стоит перепроверять, особенно когда речь идёт о деньгах или данных.

Автор: Анна Грабарчук

Соцсети: Юлия Зубарева