Google представила технологию TurboQuant. Это алгоритм, который позволяет сократить потребление памяти ИИ-моделей как минимум в 6 раз без потери качества.
Разработка нацелена на одну из главных проблем современных моделей — огромные требования к памяти при работе с данными.
Речь идет о так называемых векторах — основе работы ИИ. Именно они позволяют моделям понимать текст, изображения и смысл данных. Но такие структуры занимают много памяти и создают так называемые бутылочные горлышки в производительности .
В чем суть TurboQuant
TurboQuant — это продвинутая система сжатия (квантования), которая уменьшает размер данных, сохраняя их смысл. Алгоритм решает ключевую проблему старых методов — дополнительный «скрытый» расход памяти, который частично нивелировал эффект сжатия.
В основе лежат два подхода. Первый — PolarQuant. Он преобразует данные в более компактную форму через полярные координаты.
Второй — QJL. Он уже использует математический трюк, позволяющий хранить информацию буквально в одном бите без потери важной структуры данных .
Вместе они позволяют сжимать ключевые данные модели до 3 бит, при этом сохраняя точность и даже ускоряя работу.
Быстрее и дешевле без потери качества
Тесты показали, что TurboQuant уменьшает объем памяти в key-value кеше минимум в 6 раз без ухудшения качества ответов.
Более того, в некоторых сценариях производительность даже растет — например, скорость вычислений может увеличиваться до 8 раз по сравнению с классическими моделями .
Это особенно важно для задач с длинным контекстом, генерацией кода и поиском информации. Алгоритм также показал высокую эффективность в задачах поиска похожих данных — ключевой технологии для современных ИИ и поисковых систем.
Почему это важно
Главный эффект TurboQuant — удешевление и масштабирование ИИ. Чем меньше памяти требуется модели, тем дешевле ее запуск и тем проще развертывать ИИ в продуктах.
Для Google это означает более быстрые и эффективные сервисы — от поиска до моделей вроде Gemini.
