Google представила TurboQuant: ИИ‑модели стали в шесть раз «легче» без потери качества

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Google Research объявила о технологии TurboQuant — новом алгоритме экстремального сжатия данных для больших языковых моделей и систем векторного поиска. Разработчики заявляют, что смогут сокращать объем памяти, необходимой для работы ИИ, до шести раз без переобучения моделей и практически без потери точности.

Автор: Gemini 3.1 Flash Image

В чем суть TurboQuant

Современные большие языковые модели во время инференса хранят огромное количество промежуточных данных в так называемом KV‑кэше (key‑value cache), который позволяет им «помнить» длинный контекст без пересчета всех токенов заново. Именно этот кэш часто становится основным «пожирателем» видеопамяти, особенно при контекстах в десятки и сотни тысяч токенов.

TurboQuant — это алгоритм векторного сжатия, который уменьшает размер этих данных примерно с 16‑битного представления до около 3 бит на значение. По сути, система переводит высокоточные числа в сильно сжатый формат, но делает это в два этапа: сначала за счет базового квантования, затем — за счет дополнительного «поджатия» оставшейся ошибки с помощью специальных методов (Quantized Johnson-Lindenstrauss и PolarQuant).

Шестикратное сжатие и ускорение на H100

С точки зрения инфраструктуры, результат выглядит впечатляюще: TurboQuant позволяет уменьшить объем KV‑кэша примерно в шесть раз по сравнению со стандартным 16‑битным форматом. Это означает, что на одном и том же GPU можно либо держать в памяти гораздо больше одновременных запросов, либо обслуживать модели с существенно более длинным контекстом.

В тестах на графических ускорителях NVIDIA H100 разработчики фиксируют до восьмикратного ускорения вычисления attention‑логитов при использовании 4‑битной конфигурации TurboQuant по сравнению с не сжатыми 32‑битными ключами. При 3‑битном режиме алгоритм по‑прежнему демонстрирует «нулевую» или близкую к нулевой деградацию качества на задачах поиска и извлечения информации, сохраняя при этом высокий уровень ускорения.

Без переобучения и изменения модели

Одна из ключевых особенностей TurboQuant в том, что он работает только с KV‑кэшем на этапе инференса и не требует менять саму модель или проводить дополнительное обучение. В отличие от классических методов квантования весов, здесь не нужны доступ к обучающему датасету, пересборка модели или длительное fine‑tuning.

Это упрощает внедрение алгоритма в существующие пайплайны: теоретически TurboQuant можно «подвесить» над уже работающими моделями вроде Gemma или Mistral, не нарушая их архитектуру. Google подчеркивает, что алгоритм имеет «незначительные накладные расходы по времени выполнения» и при этом обеспечивает качество, сопоставимое с исходными 16‑битными настройками.

Что это меняет для рынка ИИ

Запуск TurboQuant может заметно сдвинуть экономику инференса больших моделей: при шестикратном сокращении памяти и значительном ускорении обработки токенов снижается стоимость каждого вывода и растет пропускная способность дата‑центров. Это особенно актуально на фоне дефицита и высокой стоимости топовых GPU — те же H100 можно будет использовать эффективнее.

Аналитики уже обсуждают возможный эффект для рынка памяти: часть экспертов считает, что такие алгоритмы могут краткосрочно ударить по производителям HBM и других типов памяти, но в долгосрочной перспективе снижение стоимости инференса лишь подогреет спрос на ИИ‑вычисления. Чем дешевле запускать модели, тем больше сценариев массового применения появляется — от встроенных ассистентов в устройствах до сложной аналитики в реальном времени.

Когда ждать TurboQuant в продуктах

Сегодня TurboQuant представлен в виде научной работы и подробного описания в блоге Google Research, а также обсуждается на конференции ICLR 2026. Официальной продакшн‑библиотеки Google пока не выпустила, но появилось уже несколько сторонних реализаций в open‑source‑сообществе, в том числе на базе PyTorch и проектов вроде llama.cpp.

По мере интеграции TurboQuant в стеки фреймворков и облачные сервисы можно ожидать появления новых тарифов и решений, ориентированных на длинный контекст и массовый инференс по более низкой цене. Для разработчиков и компаний это шанс запускать более мощные модели на меньшем числе GPU — или, наоборот, расширять функциональность без пропорционального роста инфраструктурных затрат.

Источник: https://www.tradingkey.com/

нет
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Нейрофилософ. Пишу статьи на темы будущего, искусственного интеллекта и науки. Рассуждаю о том, как существовать в новом мире.
Полный перечень статей можно найти на моем сайте Блог Илона Мерлина
Присоединяйтесь в ТГ канал. Там представлен сборник мыслей, инструкций и советов по адаптации к миру будущего. Кодекс Мерлина

1 комментарий

AIguide
Кажется, мы как раз входим в эпоху, когда «оптимизация KV‑кэша» перестаёт быть строчкой в ресёрч‑пейпере и становится реальным рычагом в продакшене.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Почему кашалота не убивает давление на глубине 2 километра

Кашалот — гигант океана, способный погружаться на глубину более 2 км (где давление достигает 200 атмосфер), оставаясь там до полутора часов. На этой глубине они заняты поисками добычи,...

Светящиеся водоросли можно использовать вместо ламп: инженеры научились управлять биолюминесценцией с помощью химии

Способность живых клеток вырабатывать свет — сложный биологический процесс, который исследователи стремились адаптировать для создания новых типов датчиков и светоизлучающих систем....

Почему первые реактивные двигатели имели крайне малый ресурс

В 1940-х годах реактивная авиация находилась на этапе, когда сама идея уже была реализована, но инженерная база ещё не позволяла обеспечить надёжность, сравнимую с поршневыми двигателями. Первые...

Как получить мобильный тариф 300 ГБ и 2000 мин за 1 рубль в месяц

До 15 мая 2026 года у Мегафон проходит акция, благодаря которой можно получить тариф с максимальными параметрами и абонентской платой 1 рубль в месяц при переводе номера от другого оператора....

Динозавры погибли, а флора выжила: как «сломанная» ДНК спасла растения от глобальных катаклизмов

Удвоение всего генетического материала — полногеномная дупликация, или полиплоидия — это серьезный сбой в фундаментальных процессах живой клетки. В нормальных условиях...

Почему в турецком городе Мардин запрещено строить новые дома

Турецкий город Мардин застал времена древней Месопотамии, видел на своих улицах ассирийцев и римлян, был одной из главных остановок на Великом шелковом пути, а позже вошел в состав великой...