DeepSeek анонсировала языковую модель R2 с 1,2 триллиона параметров

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Китайская компания DeepSeek готовит к запуску новую языковую модель искусственного интеллекта DeepSeek-R2, релиз которой запланирован на конец августа 2025 года. Модель построена на архитектуре Mixed of Experts (MoE) и содержит 1,2 триллиона параметров, что почти в два раза превышает показатели предыдущей версии DeepSeek-R1 с 671 миллиардом параметров.

DeepSeek-R2 полностью обучена на китайских процессорах Huawei Ascend 910B. Аппаратный кластер демонстрирует производительность 512 петафлопс в формате FP16 при коэффициенте использования 82 процента. Данные показатели составляют 91 процент от производительности кластеров на базе американских чипов Nvidia A100.

Автор: DeepSeek Источник: www.teknoburada.net

Компания заявляет о значительном снижении затрат на обучение модели. По предварительным данным, стоимость обучения DeepSeek-R2 на 97 процентов ниже расходов на создание GPT-4 благодаря оптимизации аппаратных и программных решений.

Новая модель использует усовершенствованную систему сетевых шлюзов, что должно повысить эффективность при выполнении задач вывода. DeepSeek планирует предложить доступ к API модели по цене ниже текущих рыночных стандартов, установленных OpenAI и Anthropic.

Разработка DeepSeek-R2 на отечественном оборудовании рассматривается как часть стратегии Китая по снижению зависимости от американских технологий в сфере искусственного интеллекта. Официальный анонс модели ожидается в ближайшие недели.

Источник: Teknoburada.Net

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор китайской аккумуляторной дрели-шуруповерта под 18V батареи: дешево не значит хорошо

Люблю, когда инструмент стоит своих денег. Не стала исключением и эта ударная дрель, которую можно назвать универсальной: есть функция молотка, есть муфта с широким пределом регулировки момента,...

Земля оказалась гибридом: как наша планета зародилась в одном кольце, а достраивалась в другом

Стандартная модель формирования Солнечной системы предполагала, что планеты земной группы сформировались из широкого, относительно однородного диска пыли и газа, который простирался от Солнца до...

Антарктика годами наращивала лед, а затем резко его потеряла: скрытая причина таяния Южного полюса

Долгое время поведение антарктических льдов расходилось с прогнозами климатологов. В то время как Северный Ледовитый океан терял свой ледяной покров под воздействием растущих глобальных температур,...

Румынский Диснейленд на глубине 120 метров: чем интересна шахта Салина-Турда

Пока все страны мира дружно консервируют и закрывают шахты, отслужившие свое, в Румынии к вопросу подошли креативно. И правильно, зачем добру пропадать, если можно превратить соляную шахту в...

Обзор наушников Twistura Beta Flagship: агрессия, драйв и текстуры

В названии наушников Beta от компании Twistura фигурирует приставка Flagship, то есть флагманские. Да, производитель небольшой и это одно из самых дорогих его решений, однако не так давно мы...

Обзор ноутбука Machenike Star Neptune 2K: 16" и 165Гц дисплей, полный, не урезанный TGP видеокарты RTX 5060 на Intel Core i5 13420H

Ноутбук Machenike Star Neptune 2K понравился большим и хорошим 16″ 2К экраном, актуальным процессором Intel Core i5 13420H и, главное, дискретной мобильной видеокартой NVIDIA RTX 5060 8ГБ с...