Учёные протестировали популярные ИИ — ChatGPT, Gemini, Grok, Claude и Copilot — на умение решать простые математические задачи. Речь шла не о сложных уравнениях, а о базовой арифметике и вычислениях, с которыми пользователи сталкиваются в повседневной жизни.
Как тестировали
Моделям задавали одинаковые вопросы: сложение, вычитание, проценты, простые дроби и логические расчёты. Оценивалась не скорость, а точность ответов — правильно ли ИИ считает без дополнительных уточнений и исправлений.
Результаты
Лучшие результаты показали ChatGPT и Gemini, они чаще давали корректные ответы без ошибок. Grok и Copilot справлялись нестабильно, а Claude чаще допускал неточности в элементарных вычислениях.
Контекст
Ошибки в простой математике остаются одной из уязвимостей языковых моделей. Даже при хорошем владении текстом ИИ может галлюцинировать в числах, что особенно заметно в бытовых задачах — расчётах скидок, времени или пропорций.
Что это значит
Тест показывает, что ИИ по-прежнему нельзя безоговорочно доверять даже в базовых вычислениях. Ответы всё ещё стоит перепроверять, особенно когда речь идёт о деньгах или данных.
