Почему покупать видеокарту после работы с ИИ опаснее, чем после майнинга. Личный опыт и статистика

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Совсем недавно мы переживали бум криптовалют и связанный с ним дефицит видеокарт. И вот, не успели геймеры оправиться от одного потрясения, как на горизонте замаячило новое. На этот раз виновником стал искусственный интеллект. Видеокарты снова дорожают по экспоненте, и на этот раз конца-края проблеме не видно.


Однако, на вторичный рынок уже начали поступать тонкой струйкой первые партии RTX 30, использовавшиеся в небольших ИИ-комплексах, а в скором времени ожидается настоящий потоп из карт серий RTX 30/40. В условиях, когда цены на новые видеокарты бьют все рекорды, возникает закономерный вопрос: стоит ли рассматривать покупку таких б/у экземпляров?

Характер нагрузки видеокарты в ИИ

Когда речь заходит о работе видеокарт с нейросетями, важно понимать, что существует два принципиально разных сценария работы.

  1. Первый — это обучение моделей, но он нас мало касается. Там в ходу специализированные ИИ-ускорители с огромным объёмом памяти на борту, предназначенные для создания и оттачивания новых нейросетей. Они по окончанию гарантии уйдут на свалку или будут перепроданы корпоратам меньшего калибра, а потому нам неинтересны.
  2. Куда интереснее второй режим — продакшен. Именно туда отправляются в том числе потребительские видеокарты, и именно там они проводят большую часть своей «трудовой» жизни. В этом режиме на картах разворачивают уже готовые, обученные модели (или, самое большее, дообучают имеющиеся), а машинное время продают как услугу (SaaS). Чаще всего речь идёт о чём-то вроде Stable Diffusion для генерации изображений или, реже, об открытых языковых моделях (LLM).

Интересный нюанс заключается в том, что немалую часть этого рынка занимают не гиганты, а средний и малый бизнес.

Это предприниматели, которые покупают несколько десятков или сотен видеокарт, настраивают на них популярные ИИ-модели, разворачивают сайт на конструкторе и продают доступ всем желающим — дальше конкуренция становится вопросом хорошей рекламы и дешевой «розетки». И именно из-за этого нас может ждать ещё и двойной «удар» на рынке б/у видеокарт: первая волна пойдёт от плановой замены оборудования (что уже потихоньку начинается), а вторая может нахлынуть при массовом разорении таких бизнесов.

В чём разница между ИИ и майнингом

Теперь давайте разберёмся, чем же отличается работа видеокарты в ИИ-сервисе от её работы в майнинге криптовалют. Ключевое различие кроется в характере нагрузки.

  • При майнинге или обучении нейросетей нагрузка на видеокарту постоянна. Карта работает на полную мощность 24/7, без перерывов и колебаний. Это, конечно, тяжело для железа, но, по крайней мере, предсказуемо.
  • В случае с ИИ-сервисами картина совсем иная. Здесь нагрузка напоминает американские горки: резкие взлёты сменяются столь же резкими падениями. Когда поступает запрос от клиента, видеокарта мгновенно включается на полную мощность, обрабатывает задачу, а затем может уйти в режим ожидания до следующего запроса. И так по кругу, с пиковыми часами активности и периодами затишья.

Такой режим работы может показаться более щадящим, но на деле он гораздо опаснее для здоровья видеокарты. И вот почему:

Техническая сторона вопроса

Давайте углубимся в техническую сторону вопроса и разберёмся, почему циклическая нагрузка от ИИ-задач может быть губительной для видеокарты. Здесь мы сталкиваемся с тремя основными факторами риска, каждый из которых может привести к прогару или Его Величеству Отвалу.

  • Первый и наиболее частый при нормальной экспуатации виновник отказа видеокарт — циклы термального расширения. Когда видеокарта нагревается и остывает, различные её компоненты расширяются и сжимаются с разной скоростью. Это создаёт микронапряжения в структуре материалов, которые со временем могут привести к образованию трещин и разрывов в паяных соединениях. А это — прямой путь к отвалу.
  • Второй фактор — это физический износ самого графического чипа и сопутствующих деталей. При постоянной работе на высоких температурах и/или нагрузке в компонентах GPU могут происходить необратимые изменения на атомарном уровне (деградация). Самое частое следствие — разрушительный отказ одного из элементов фаз питания, с последующим глубоким прогаром на грани неремонтопригодности. Второе по частоте — даже если видеокарта каким-то чудом переживёт несколько лет в таком режиме, без даунклокинга или овервольта она может уже не завестись.
  • Третий аспект касается текстолита, на котором смонтированы все компоненты видеокарты. Длительное воздействие высоких температур может привести к его микродеформацииям и изменению свойств, что в свою очередь влияет на надёжность всей карты в целом. Тоже не в лучшую сторону, хоть и менее всего — в потенциальных итогах проявление «холодных паек», пониженная устойчивость к деформации под собственным весом и другие последствия меньшего калибра.
Собственно, самый частый итог «неигрового» насилия над GPU где-то посередине попытки негарантийного ремонта коллегой. Второй по распространённости — всё тот же Его Величество Отвал. Да, это 1070, но внутри с тех пор ничего не поменялось.
Автор: LeVK

И вот здесь кроется главная опасность ИИ-нагрузки: она умудряется сочетать все три фактора риска одновременно. Циклический характер работы (нагрев при обработке запроса, остывание в паузах) идеально подходит для создания термальных циклов. При этом общая продолжительность работы сравнима с майнингом — карты могут трудиться практически круглосуточно, с небольшими перерывами в зависимости от загрузки кластера.

Более того, в отличие от большинства видов майнинга, которые в основном нагружали только видеопамять, ИИ-задачи активно задействуют и сам графический процессор. Это создаёт дополнительную нагрузку на чип, ускоряя его износ, и на фазы питания — поскольку выше энергопотребление. По сути, такой режим работы превращает видеокарту в подопытного кролика в непрерывном стресс-тесте, что не может не сказаться на её долговечности — и отказать здесь могут буквально все компоненты, включая чип, память и VRM.

Не рискуйте: видеокарты после ИИ лучше обойти стороной. Статистика

Если с видеокартами после майнинга ещё можно было рискнуть, тщательно взвесив все за и против, то в случае с картами после ИИ риск становится неоправданно высоким.

Чтобы не быть голословным, приведу немного статистики. У моего знакомого, который занимается именно таким ИИ-бизнесом (куда пришёл из майнинга), за неполный год работы вышло из строя и отправилось на гарантию около 20% видеокарт, даже с учетом малой выборки. И это при том, что речь идёт о новом оборудовании, купленном специально под эти задачи.


Вот немного обезличенных (по просьбе друга убрал фото стоек) данных, учитываются только GPU, не бывшие до этого в майнинге:

Тип видеокарты Было (на 28.10.2023) Отказало к июню 2024 Процент отказа
RTX 3080/12 20 6 (из них 2 уже после гарантийного ремонта) 30%
RTX 3090 8 1 12.5%
RTX 4070 12 3 25%
RTX 4090 2 0 0%
Итого 42* 10 24%

Да, статистика не бог весть какая, но другой у меня нет — и эта, думаю, показательна. Для сравнения, средние данные по индустрии для тех, кто на GPU играет — до 1.25% в годовом исчислении, то есть даже на недостаточной выборке видно, что процент отказов крайне высок. Впрочем, важно учитывать, что видеокарты серии RTX 30 к началу таблицы проработали уже около трёх-пяти месяцев в «пилотном проекте».

Теперь представьте, что будет, когда эти карты начнут массово списывать и продавать на вторичном рынке — скорее всего, уже на исходе гарантийного срока, чтобы не платить за неизбежный ремонт самим. Вы рискуете купить устройство, которое проработает считанные недели или месяцы, не говоря уже о «прогревастах» и прочих любителях предпродажной подготовки.

Поэтому мой совет — не гонитесь за призрачной экономией. Лучше немного подождать, накопить и купить новую карту с полной гарантией. Да, это дороже, но в долгосрочной перспективе вы останетесь в выигрыше. Если с видеокартами после майнинга ещё можно было рискнуть, взвесив все за и против, прикинув дисконт, риски и примерный остаточный ресурс карты, то с GPU после интенсивного использования в ИИ-сервисах лучше не связываться вообще. ИМХО.

Почему видеокарты настолько подорожали: пора обновляться сейчас, завтра будет ещё дороже

* — Экологическое движение «42» — признано иностранным агентом

Читайте также

Новости

Публикации