DeepSeek анонсировала языковую модель R2 с 1,2 триллиона параметров

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Китайская компания DeepSeek готовит к запуску новую языковую модель искусственного интеллекта DeepSeek-R2, релиз которой запланирован на конец августа 2025 года. Модель построена на архитектуре Mixed of Experts (MoE) и содержит 1,2 триллиона параметров, что почти в два раза превышает показатели предыдущей версии DeepSeek-R1 с 671 миллиардом параметров.

DeepSeek-R2 полностью обучена на китайских процессорах Huawei Ascend 910B. Аппаратный кластер демонстрирует производительность 512 петафлопс в формате FP16 при коэффициенте использования 82 процента. Данные показатели составляют 91 процент от производительности кластеров на базе американских чипов Nvidia A100.

Автор: DeepSeek Источник: www.teknoburada.net

Компания заявляет о значительном снижении затрат на обучение модели. По предварительным данным, стоимость обучения DeepSeek-R2 на 97 процентов ниже расходов на создание GPT-4 благодаря оптимизации аппаратных и программных решений.

Новая модель использует усовершенствованную систему сетевых шлюзов, что должно повысить эффективность при выполнении задач вывода. DeepSeek планирует предложить доступ к API модели по цене ниже текущих рыночных стандартов, установленных OpenAI и Anthropic.

Разработка DeepSeek-R2 на отечественном оборудовании рассматривается как часть стратегии Китая по снижению зависимости от американских технологий в сфере искусственного интеллекта. Официальный анонс модели ожидается в ближайшие недели.

Источник: Teknoburada.Net

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Пиво для Марса: в США создали напиток, газированный CO₂ прямо из атомосферы

Идея освоения Марса обычно ассоциируется с базовыми ресурсами: кислородом, водой и топливом для ракет. Однако не менее важной частью будущих колоний станут повседневные технологии, способные...

Опасности в криптовалюте: как устроены популярные схемы мошенничества

Сегодня криптовалюта — это огромный рынок с миллиардами долларов, где рядом с инновациями и возможностями соседствуют риски, о которых часто узнают слишком поздно. Главная проблема в...

Почему особняк Винчестеров привлекает туристов со всего света и правда ли, что в нем живут призраки

В городе Сан-Хосе в штате Калифорния трудно не остановить взгляд на огромном особняке Винчестеров. Постройка выделяется необычным стилем, размерами, полагающимися скорее дворцу, чем дому, но...

Оранжевый «черный ящик»: выживание данных в авиакатастрофах

Термин «черный ящик» прочно закрепился в лексиконе, хотя в профессиональной среде используется более точное название — бортовой самописец. Вопреки распространенному названию, корпус...

Обзор угловой шлифовальной машины (УШМ) TECHNICOM TC-EAG125

Угловая шлифовальная машина, или просто «болгарка» является универсальным инструментом. Её можно использовать для резки различных металлов, зачистки и шлифовки любых покрытий, а также обработки...

Пастельный режим в Третьяковской галерее: музей показывает коллекцию рисунков из фондов хранилища

Эту выставку можно было бы назвать очередным блокбастером Третьяковки, да вот только сама Галерея именует ее «хрупкой», или, продолжая этот ряд - тихой...