Быстрее графических процессоров: Cerebras запускает триллионную ИИ-модель Kimi K2.6 на рекордной скорости

Американский чипмейкер бросает вызов Nvidia на рынке корпоративного инференса

Менее чем через неделю после завершения крупнейшего технологического IPO 2026 года калифорнийская компания Cerebras Systems сделала агрессивный шаг в борьбе за доминирование на быстрорастущем рынке инференса искусственного интеллекта. Производитель чипов объявил о запуске для корпоративных клиентов Kimi K2.6 — открытой модели с триллионом параметров, разработанной пекинской Moonshot AI. Скорость работы нейросети на оборудовании компании достигла почти 1000 токенов в секунду, что является недостижимым результатом для любых существующих решений на базе графических процессоров (GPU).

Независимый аудит, проведённый исследовательской фирмой Artificial Analysis, зафиксировал точный результат в 981 выходной токен в секунду. Это сделало платформу Cerebras в 6,7 раза быстрее следующего за ней лучшего облачного провайдера на базе GPU и в 23 раза быстрее медианного рыночного показателя. На практике стандартный запрос разработчика на написание кода объёмом 10 000 входных токенов — включая обработку промпта, рассуждения и генерацию 500 токенов ответа — занял у Cerebras всего 5,6 секунды, тогда как официальный облачный сервис Kimi обрабатывал его 163,7 секунды.

Данный анонс стал важной поворотной точкой для Cerebras, которая долгое время боролась с рыночным стереотипом о том, что её нестандартные гигантские чипы размером во всю кремниевую пластину подходят только для небольших моделей. Kimi K2.6 стала первой в истории компании триллионной моделью, запущенной в коммерческую эксплуатацию. Имея за плечами свежую рыночную капитализацию в $95 миллиардов и $5,55 миллиарда свободных средств, полученных от выхода на биржу, Cerebras наглядно демонстрирует готовность конкурировать на самом технологичном уровне.

Иллюстрация: Nano Banana

Выпущенная 20 апреля компанией Moonshot AI модель Kimi K2.6 представляет собой архитектуру Mixture-of-Experts (MoE, смесь экспертов), где из 1 триллиона параметров при каждом проходе активируются 32 миллиарда. Модель возглавляет авторитетный бенчмарк SWE-Bench Pro с показателем 58,6, опережая Claude Opus 4.6 и не уступая GPT-5.4. Для коммерческих предприятий этот открытый алгоритм становится полноценной и экономически выгодной заменой дорогим закрытым API от Anthropic и OpenAI, которые к тому же регулярно сталкиваются с нехваткой вычислительных мощностей на стороне провайдеров.

Причина феноменальной скорости Cerebras кроется в её уникальном аппаратном подходе. Если традиционный инференс работает на кластерах из десятков отдельных GPU, где данные постоянно пересылаются между чипами через сетевую инфраструктуру, создавая узкое горлышко, то процессор Cerebras Wafer-Scale Engine 3 — это единый чип. Он содержит 44 гигабайта сверхбыстрой памяти SRAM прямо на кристалле, обеспечивая пропускную способность внутрикристальной сети в 200 раз выше, чем интерфейс NVLink у конкурентов. Для работы Kimi K2.6 веса модели распределяются по кластеру из примерно 20 систем CS-3, но все эксперты каждого слоя MoE умещаются на одной пластине, выполняя маршрутизацию на аппаратной скорости памяти SRAM.

Пока Cerebras позиционирует новинку как закрытое облачное предложение исключительно для корпоративного сектора и компаний из списка Fortune 500, не открывая доступ широкой публике из-за соображений балансировки трафика. Что касается ценообразования, то компания обещает держать стоимость генерации токенов на средне-верхнем уровне тарифов стандартных GPU-провайдеров. Напрямую конкурировать с дешёвым сегментом медленного инференса (на уровне 20 токенов в секунду) Cerebras не планирует, сравнивая себя с производителем мощных грузовиков, а не бюджетных малолитражек.

Рыночные аналитики отмечают, что инференс сейчас стремительно обгоняет этап обучения моделей по своей коммерческой значимости, поскольку скорость работы автономных ИИ-агентов напрямую определяет их полезность для бизнеса. Обострение конкуренции подтверждается недавней сделкой Nvidia по покупке профильного стартапа Groq за $20 миллиардов. Cerebras, со своей стороны, отвечает на это ежегодным циклом обновления оборудования, а также крупными контрактами — в том числе соглашением с OpenAI на сумму свыше $20 миллиардов, в рамках которого Cerebras уже обеспечивает работу перспективных внутренних моделей генерации кода.

Директор по продуктовому маркетингу Cerebras Джеймс Ван подчёркивает, что запуск Kimi K2.6 — лишь первый шаг, и в течение года компания продемонстрирует работу на рекордных скоростях других сложнейших закрытых моделей. В Cerebras убеждены, что мировая экономика сейчас активно перестраивается под управление автономными цифровыми агентами. В таком сценарии победу на рынке одержит тот бизнес, чьи ИИ-помощники будут способны выдавать готовые масштабные решения и программный код за те секунды, пока пользователь наливает себе чашку кофе.

Darth Sahara Источники: venturebeat
Главное