Чипы Nvidia и AMD больше не обязательны: для обучения DeepSeek V4 использовались чипы Huawei Ascend

Это прорыв в китайской индустрии чипсетов

В DeepSeek V4 для выполнения задач искусственного интеллекта используются чипы Huawei, но в последнем исследовании компания применила процессоры Ascend для завершения постобучения модели V4 Pro. Это еще один прорыв в китайской индустрии чипсетов для ИИ.

Китайские производители микросхем успешно поддерживают вывод данных с помощью ИИ, но они сталкиваются с трудностями в обучении моделей ИИ, что является гораздо более сложной задачей. Исследовательская группа использовала чипы Huawei для постобучения модели искусственного интеллекта DeepSeek V4 Pro. В реализации этого проекта совместно участвовали Huawei и такие институты, как Shenzhen Loop Area, Shenzhen Campus of Harbin Institute of Technology и Shenzhen Institute of Big Data.

Группа исследователей использовала вычислительный кластер, работающий на базе около 1000 чипов Huawei Ascend 910C, для проведения постобучения модели DeepSeek V4 Pro. Это было полнопараметрическое обучение, в ходе которого модель была полностью обновлена без каких-либо изменений в структуре.

Вывод результатов и постобучение — это два разных сегмента LLM в области искусственного интеллекта. Первый представляет собой простой метод запуска «уже готовой» модели для ответа на запросы пользователя, а второй посвящен тому, как заставить модель ИИ работать с командами человека. Предварительное обучение — это процесс обучения модели ИИ речи путем обработки огромных объемов данных. В то время как последующее обучение относится к работе модели ИИ с инструкциями человека, правилами безопасности и другими операциями. Последние шаги в этом направлении помогут повысить самодостаточность китайской индустрии искусственного интеллекта.

До Huawei обучение по программе AI LLM проводилось на чипсетах Nvidia или Advanced Micro Devices (AMD). Например, обучение DeepSeek V3 проходило на вычислительном кластере, состоящем из 2048 чипов Nvidia H800 (в настоящее время доступ к нему ограничен).

Ранее сообщалось, что китайский ИИ-стартап DeepSeek готовится к крупному раунду финансирования, в рамках которого планирует привлечь около 50 млрд юаней (примерно 7,4 млрд долларов). DeepSeek — это китайская компания и семейство мощных больших языковых моделей (LLM) с открытым исходным кодом, специализирующаяся на искусственном интеллекте (ИИ), выступающая конкурентом ChatGPT и других популярных моделей, при этом отличаясь меньшими затратами на обучение. Она генерирует текст, пишет код, решает логические задачи, а также способна генерировать изображения.