DeepSeek анонсировала языковую модель R2 с 1,2 триллиона параметров

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Китайская компания DeepSeek готовит к запуску новую языковую модель искусственного интеллекта DeepSeek-R2, релиз которой запланирован на конец августа 2025 года. Модель построена на архитектуре Mixed of Experts (MoE) и содержит 1,2 триллиона параметров, что почти в два раза превышает показатели предыдущей версии DeepSeek-R1 с 671 миллиардом параметров.

DeepSeek-R2 полностью обучена на китайских процессорах Huawei Ascend 910B. Аппаратный кластер демонстрирует производительность 512 петафлопс в формате FP16 при коэффициенте использования 82 процента. Данные показатели составляют 91 процент от производительности кластеров на базе американских чипов Nvidia A100.

Автор: DeepSeek Источник: www.teknoburada.net

Компания заявляет о значительном снижении затрат на обучение модели. По предварительным данным, стоимость обучения DeepSeek-R2 на 97 процентов ниже расходов на создание GPT-4 благодаря оптимизации аппаратных и программных решений.

Новая модель использует усовершенствованную систему сетевых шлюзов, что должно повысить эффективность при выполнении задач вывода. DeepSeek планирует предложить доступ к API модели по цене ниже текущих рыночных стандартов, установленных OpenAI и Anthropic.

Разработка DeepSeek-R2 на отечественном оборудовании рассматривается как часть стратегии Китая по снижению зависимости от американских технологий в сфере искусственного интеллекта. Официальный анонс модели ожидается в ближайшие недели.

Источник: Teknoburada.Net

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Если магнитный щит Земли снова упадет до 5%: как повторение магнитной аномалии Лашамп повысит облучение экипажей самолетов в 75 раз

На высотах от 10 до 12 километров, где пролегают маршруты современных коммерческих авиалайнеров, плотность атмосферы значительно ниже, чем на уровне моря. Из-за этого самолеты и их пассажиры...

Ученые долго не понимали, как тело чувствует холод: ответ нашли в термодинамике нервных рецепторов

Способность живых организмов ощущать температуру окружающей среды — одна из базовых функций нервной системы, особо важная для выживания. У млекопитающих за распознавание холода отвечает...

О чем молчит «собачка»: техническая история символа @

Сегодня символ @ является неотъемлемой частью цифровой жизни, обеспечивая работу электронной почты и социальных сетей. Однако его путь к клавише «2» на клавиатуре занял несколько столетий, пройдя...

Озеро Медуз: единственное место в мире, где медузы дарят эстетичные снимки вместо ожогов

В контексте путешествий и выбора лучшего места для отдыха медузы воспринимаются как вредители и лишний повод убрать точку на карте со своего идеального маршрута. Но есть в мире одно единственное...

Пять морей в сердце России: почему Москву называют «портом пяти морей»

Москва — один из самых значимых и стратегически важных мегаполисов мира, и её роль как крупного транспортного и экономического центра во многом обусловлена уникальным географическим...

Kiwi Ears AD1 — с поддержкой гарнитур — обзор ЦАПа/усилителя начального уровня с хорошими характеристиками и EQ

Компания Kiwi Ears в гораздо большей степени известна своими наушниками, чем ЦАПами. В общем, и ЦАПов у них до AD1 было всего два, и оба в несколько специфичном форм-факторе, недорогие, но с...