Google представила новую модель Gemma 4 12B — мультимодальную систему искусственного интеллекта, рассчитанную на локальный запуск на ноутбуках и других устройствах с ограниченными вычислительными ресурсами. Модель стала промежуточным звеном между компактной E4B и более крупной MoE-архитектурой на 26 млрд параметров.
Ключевая особенность Gemma 4 12B заключается в том, что это первая модель среднего размера в линейке, которая изначально поддерживает аудиовходы. Кроме того, разработчики заявляют, что система способна работать без традиционных отдельных энкодеров для обработки изображений и аудио, используя более прямую интеграцию мультимодальных сигналов в основную языковую модель.
По словам компании, архитектура модели была радикально упрощена. В случае обработки изображений отдельный vision-энкодер заменён лёгким модулем на основе матричных преобразований и позиционного кодирования, что снижает вычислительные затраты. Аудиообработка реализована ещё проще — сырой сигнал проецируется в пространство текстовых токенов без отдельного энкодера.
Несмотря на упрощённую архитектуру, Gemma 4 12B демонстрирует производительность, близкую к более крупной модели с 26 млрд параметров на стандартных бенчмарках. При этом её требования к памяти существенно ниже, что позволяет запускать систему локально на устройствах с 16 ГБ видеопамяти или унифицированной памяти.
Модель также поддерживает механизм Multi-Token Prediction (MTP), который снижает задержки при генерации текста, и ориентирована на агентные сценарии использования, включая выполнение сложных задач.
Отдельным акцентом Google стало то, что линейка Gemma уже достигла более 150 миллионов загрузок в сообществе разработчиков. На её основе создавались различные проекты — от носимых роботизированных систем до корпоративных решений в области кибербезопасности.
Gemma 4 12B распространяется под лицензией Apache 2.0 и предназначена для широкого использования в экосистеме разработчиков. В компании подчёркивают, что цель релиза — перенести продвинутые мультимодальные возможности ИИ непосредственно на устройства пользователей без необходимости обращения к облачным сервисам.
