Менее чем через неделю после завершения крупнейшего технологического IPO 2026 года калифорнийская компания Cerebras Systems сделала агрессивный шаг в борьбе за доминирование на быстрорастущем рынке инференса искусственного интеллекта. Производитель чипов объявил о запуске для корпоративных клиентов Kimi K2.6 — открытой модели с триллионом параметров, разработанной пекинской Moonshot AI. Скорость работы нейросети на оборудовании компании достигла почти 1000 токенов в секунду, что является недостижимым результатом для любых существующих решений на базе графических процессоров (GPU).
Независимый аудит, проведённый исследовательской фирмой Artificial Analysis, зафиксировал точный результат в 981 выходной токен в секунду. Это сделало платформу Cerebras в 6,7 раза быстрее следующего за ней лучшего облачного провайдера на базе GPU и в 23 раза быстрее медианного рыночного показателя. На практике стандартный запрос разработчика на написание кода объёмом 10 000 входных токенов — включая обработку промпта, рассуждения и генерацию 500 токенов ответа — занял у Cerebras всего 5,6 секунды, тогда как официальный облачный сервис Kimi обрабатывал его 163,7 секунды.
Данный анонс стал важной поворотной точкой для Cerebras, которая долгое время боролась с рыночным стереотипом о том, что её нестандартные гигантские чипы размером во всю кремниевую пластину подходят только для небольших моделей. Kimi K2.6 стала первой в истории компании триллионной моделью, запущенной в коммерческую эксплуатацию. Имея за плечами свежую рыночную капитализацию в $95 миллиардов и $5,55 миллиарда свободных средств, полученных от выхода на биржу, Cerebras наглядно демонстрирует готовность конкурировать на самом технологичном уровне.
Выпущенная 20 апреля компанией Moonshot AI модель Kimi K2.6 представляет собой архитектуру Mixture-of-Experts (MoE, смесь экспертов), где из 1 триллиона параметров при каждом проходе активируются 32 миллиарда. Модель возглавляет авторитетный бенчмарк SWE-Bench Pro с показателем 58,6, опережая Claude Opus 4.6 и не уступая GPT-5.4. Для коммерческих предприятий этот открытый алгоритм становится полноценной и экономически выгодной заменой дорогим закрытым API от Anthropic и OpenAI, которые к тому же регулярно сталкиваются с нехваткой вычислительных мощностей на стороне провайдеров.
Причина феноменальной скорости Cerebras кроется в её уникальном аппаратном подходе. Если традиционный инференс работает на кластерах из десятков отдельных GPU, где данные постоянно пересылаются между чипами через сетевую инфраструктуру, создавая узкое горлышко, то процессор Cerebras Wafer-Scale Engine 3 — это единый чип. Он содержит 44 гигабайта сверхбыстрой памяти SRAM прямо на кристалле, обеспечивая пропускную способность внутрикристальной сети в 200 раз выше, чем интерфейс NVLink у конкурентов. Для работы Kimi K2.6 веса модели распределяются по кластеру из примерно 20 систем CS-3, но все эксперты каждого слоя MoE умещаются на одной пластине, выполняя маршрутизацию на аппаратной скорости памяти SRAM.
Пока Cerebras позиционирует новинку как закрытое облачное предложение исключительно для корпоративного сектора и компаний из списка Fortune 500, не открывая доступ широкой публике из-за соображений балансировки трафика. Что касается ценообразования, то компания обещает держать стоимость генерации токенов на средне-верхнем уровне тарифов стандартных GPU-провайдеров. Напрямую конкурировать с дешёвым сегментом медленного инференса (на уровне 20 токенов в секунду) Cerebras не планирует, сравнивая себя с производителем мощных грузовиков, а не бюджетных малолитражек.
Рыночные аналитики отмечают, что инференс сейчас стремительно обгоняет этап обучения моделей по своей коммерческой значимости, поскольку скорость работы автономных ИИ-агентов напрямую определяет их полезность для бизнеса. Обострение конкуренции подтверждается недавней сделкой Nvidia по покупке профильного стартапа Groq за $20 миллиардов. Cerebras, со своей стороны, отвечает на это ежегодным циклом обновления оборудования, а также крупными контрактами — в том числе соглашением с OpenAI на сумму свыше $20 миллиардов, в рамках которого Cerebras уже обеспечивает работу перспективных внутренних моделей генерации кода.
Директор по продуктовому маркетингу Cerebras Джеймс Ван подчёркивает, что запуск Kimi K2.6 — лишь первый шаг, и в течение года компания продемонстрирует работу на рекордных скоростях других сложнейших закрытых моделей. В Cerebras убеждены, что мировая экономика сейчас активно перестраивается под управление автономными цифровыми агентами. В таком сценарии победу на рынке одержит тот бизнес, чьи ИИ-помощники будут способны выдавать готовые масштабные решения и программный код за те секунды, пока пользователь наливает себе чашку кофе.