DeepSeek анонсировала языковую модель R2 с 1,2 триллиона параметров

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Китайская компания DeepSeek готовит к запуску новую языковую модель искусственного интеллекта DeepSeek-R2, релиз которой запланирован на конец августа 2025 года. Модель построена на архитектуре Mixed of Experts (MoE) и содержит 1,2 триллиона параметров, что почти в два раза превышает показатели предыдущей версии DeepSeek-R1 с 671 миллиардом параметров.

DeepSeek-R2 полностью обучена на китайских процессорах Huawei Ascend 910B. Аппаратный кластер демонстрирует производительность 512 петафлопс в формате FP16 при коэффициенте использования 82 процента. Данные показатели составляют 91 процент от производительности кластеров на базе американских чипов Nvidia A100.

Автор: DeepSeek Источник: www.teknoburada.net

Компания заявляет о значительном снижении затрат на обучение модели. По предварительным данным, стоимость обучения DeepSeek-R2 на 97 процентов ниже расходов на создание GPT-4 благодаря оптимизации аппаратных и программных решений.

Новая модель использует усовершенствованную систему сетевых шлюзов, что должно повысить эффективность при выполнении задач вывода. DeepSeek планирует предложить доступ к API модели по цене ниже текущих рыночных стандартов, установленных OpenAI и Anthropic.

Разработка DeepSeek-R2 на отечественном оборудовании рассматривается как часть стратегии Китая по снижению зависимости от американских технологий в сфере искусственного интеллекта. Официальный анонс модели ожидается в ближайшие недели.

Источник: Teknoburada.Net

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Проектор или телевизор в 2026 году: что выбрать для дома

Выбор между телевизором и проектором уже давно перестал быть очевидным. Еще несколько лет назад всё было просто: телевизор — для дома, проектор — для офиса или кинотеатра. Но...

Прошлое и будущее могут не иметь строгой последовательности — подтверждает новый квантовый эксперимент

В основе классической физики и нашего повседневного восприятия мира лежит строгая концепция причинности. События всегда разворачиваются в определенной хронологической последовательности: причина...

Постоянная Хаббла и рябь пространства-времени: как измерить самое спорное число Вселенной

Пространство между галактиками непрерывно увеличивается, но, несмотря на множество исследований, наука так и не смогла точно измерить темп этого процесса. Долгое время физики использовали два...

Другая сторона Японии: страна высоких технологий и древесных аллей

Спросив любого прохожего об ассоциациях с Японией, можно получить примерно одинаковый список слов: высокие технологии, роботы, аниме, суши. Возможно, более спортивная аудитория вспомнит про...

Почти час уборки на одном заряде, гибкая штанга и датчик пыли. Обзор пылесоса Redkey P11

Предлагаю посмотреть на вертикальный аккумуляторный пылесос с гибкой штангой и без малого часом работы на одном заряде. Помогает этому встроенный датчик пыли, который анализирует уровень...

Обзор зарядного устройства Baseus Super GaN Desktop Charger 100W: GaN-транзисторы, 93% КПД и независимые порты

На рынке зарядных устройств Baseus давно зарекомендовал себя как производитель качественной и доступной продукции. Модель Super GaN Desktop Charger 100W — это настольное зарядное с...