DeepSeek анонсировала языковую модель R2 с 1,2 триллиона параметров

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Китайская компания DeepSeek готовит к запуску новую языковую модель искусственного интеллекта DeepSeek-R2, релиз которой запланирован на конец августа 2025 года. Модель построена на архитектуре Mixed of Experts (MoE) и содержит 1,2 триллиона параметров, что почти в два раза превышает показатели предыдущей версии DeepSeek-R1 с 671 миллиардом параметров.

DeepSeek-R2 полностью обучена на китайских процессорах Huawei Ascend 910B. Аппаратный кластер демонстрирует производительность 512 петафлопс в формате FP16 при коэффициенте использования 82 процента. Данные показатели составляют 91 процент от производительности кластеров на базе американских чипов Nvidia A100.

Автор: DeepSeek Источник: www.teknoburada.net

Компания заявляет о значительном снижении затрат на обучение модели. По предварительным данным, стоимость обучения DeepSeek-R2 на 97 процентов ниже расходов на создание GPT-4 благодаря оптимизации аппаратных и программных решений.

Новая модель использует усовершенствованную систему сетевых шлюзов, что должно повысить эффективность при выполнении задач вывода. DeepSeek планирует предложить доступ к API модели по цене ниже текущих рыночных стандартов, установленных OpenAI и Anthropic.

Разработка DeepSeek-R2 на отечественном оборудовании рассматривается как часть стратегии Китая по снижению зависимости от американских технологий в сфере искусственного интеллекта. Официальный анонс модели ожидается в ближайшие недели.

Источник: Teknoburada.Net

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Мистери Спот: место, в котором отключается гравитация

Только представьте себе место, где дом кренится стенами к земле, деревья растут под непонятными углами и во всех, даже самых невообразимых направлениях, мяч катится вверх, а ваш довольно низкий...

Обзор клавиатуры Attack Shark M87PRO Contour Line White: А зачем нужны символы?

Рынок клавиатур сегодня переполнен, и многие модели выглядят очень похожими друг на друга. Но что, если есть вариант, который выделяется на фоне остальных благодаря уникальным свитчам без символов...

АЗС в форме летающих тарелок: зачем их строили в СССР и что с ними сейчас

В середине 1970-х годов на дорогах Советского Союза начали появляться необычные автозаправочные станции. Их центральная часть напоминала летающую тарелку — круглый диск, возвышающийся на...

Что может обогнать скорость света? Физики впервые засняли сверхсветовое движение без нарушения законов

Скорость света в вакууме — абсолютный предел во Вселенной. Ни один материальный объект, ни одна частица, обладающая массой, и ни один сигнал, способный передавать информацию, не могут...

Почему мобильный интернет может быть медленным даже при хорошем сигнале

Многие сталкивались с ситуацией, когда на телефоне отображается уверенный уровень сигнала — почти все «палочки» на месте, значок 4G или даже 5G горит стабильно, а страницы загружаются...