Почему покупать видеокарту после работы с ИИ опаснее, чем после майнинга. Личный опыт и статистика
Совсем недавно мы переживали бум криптовалют и связанный с ним дефицит видеокарт. И вот, не успели геймеры оправиться от одного потрясения, как на горизонте замаячило новое. На этот раз виновником стал искусственный интеллект. Видеокарты снова дорожают по экспоненте, и на этот раз конца-края проблеме не видно.
Однако, на вторичный рынок уже начали поступать тонкой струйкой первые партии RTX 30, использовавшиеся в небольших ИИ-комплексах, а в скором времени ожидается настоящий потоп из карт серий RTX 30/40. В условиях, когда цены на новые видеокарты бьют все рекорды, возникает закономерный вопрос: стоит ли рассматривать покупку таких б/у экземпляров?
Содержание
Характер нагрузки видеокарты в ИИ
Когда речь заходит о работе видеокарт с нейросетями, важно понимать, что существует два принципиально разных сценария работы.
- Первый — это обучение моделей, но он нас мало касается. Там в ходу специализированные ИИ-ускорители с огромным объёмом памяти на борту, предназначенные для создания и оттачивания новых нейросетей. Они по окончанию гарантии уйдут на свалку или будут перепроданы корпоратам меньшего калибра, а потому нам неинтересны.
- Куда интереснее второй режим — продакшен. Именно туда отправляются в том числе потребительские видеокарты, и именно там они проводят большую часть своей «трудовой» жизни. В этом режиме на картах разворачивают уже готовые, обученные модели (или, самое большее, дообучают имеющиеся), а машинное время продают как услугу (SaaS). Чаще всего речь идёт о чём-то вроде Stable Diffusion для генерации изображений или, реже, об открытых языковых моделях (LLM).


Интересный нюанс заключается в том, что немалую часть этого рынка занимают не гиганты, а средний и малый бизнес.
Это предприниматели, которые покупают несколько десятков или сотен видеокарт, настраивают на них популярные ИИ-модели, разворачивают сайт на конструкторе и продают доступ всем желающим — дальше конкуренция становится вопросом хорошей рекламы и дешевой «розетки». И именно из-за этого нас может ждать ещё и двойной «удар» на рынке б/у видеокарт: первая волна пойдёт от плановой замены оборудования (что уже потихоньку начинается), а вторая может нахлынуть при массовом разорении таких бизнесов.
В чём разница между ИИ и майнингом
Теперь давайте разберёмся, чем же отличается работа видеокарты в ИИ-сервисе от её работы в майнинге криптовалют. Ключевое различие кроется в характере нагрузки.
- При майнинге или обучении нейросетей нагрузка на видеокарту постоянна. Карта работает на полную мощность 24/7, без перерывов и колебаний. Это, конечно, тяжело для железа, но, по крайней мере, предсказуемо.
- В случае с ИИ-сервисами картина совсем иная. Здесь нагрузка напоминает американские горки: резкие взлёты сменяются столь же резкими падениями. Когда поступает запрос от клиента, видеокарта мгновенно включается на полную мощность, обрабатывает задачу, а затем может уйти в режим ожидания до следующего запроса. И так по кругу, с пиковыми часами активности и периодами затишья.
Такой режим работы может показаться более щадящим, но на деле он гораздо опаснее для здоровья видеокарты. И вот почему:
Техническая сторона вопроса
Давайте углубимся в техническую сторону вопроса и разберёмся, почему циклическая нагрузка от ИИ-задач может быть губительной для видеокарты. Здесь мы сталкиваемся с тремя основными факторами риска, каждый из которых может привести к прогару или Его Величеству Отвалу.
- Первый и наиболее частый при нормальной экспуатации виновник отказа видеокарт — циклы термального расширения. Когда видеокарта нагревается и остывает, различные её компоненты расширяются и сжимаются с разной скоростью. Это создаёт микронапряжения в структуре материалов, которые со временем могут привести к образованию трещин и разрывов в паяных соединениях. А это — прямой путь к отвалу.
- Второй фактор — это физический износ самого графического чипа и сопутствующих деталей. При постоянной работе на высоких температурах и/или нагрузке в компонентах GPU могут происходить необратимые изменения на атомарном уровне (деградация). Самое частое следствие — разрушительный отказ одного из элементов фаз питания, с последующим глубоким прогаром на грани неремонтопригодности. Второе по частоте — даже если видеокарта каким-то чудом переживёт несколько лет в таком режиме, без даунклокинга или овервольта она может уже не завестись.
- Третий аспект касается текстолита, на котором смонтированы все компоненты видеокарты. Длительное воздействие высоких температур может привести к его микродеформацииям и изменению свойств, что в свою очередь влияет на надёжность всей карты в целом. Тоже не в лучшую сторону, хоть и менее всего — в потенциальных итогах проявление «холодных паек», пониженная устойчивость к деформации под собственным весом и другие последствия меньшего калибра.
И вот здесь кроется главная опасность ИИ-нагрузки: она умудряется сочетать все три фактора риска одновременно. Циклический характер работы (нагрев при обработке запроса, остывание в паузах) идеально подходит для создания термальных циклов. При этом общая продолжительность работы сравнима с майнингом — карты могут трудиться практически круглосуточно, с небольшими перерывами в зависимости от загрузки кластера.
Более того, в отличие от большинства видов майнинга, которые в основном нагружали только видеопамять, ИИ-задачи активно задействуют и сам графический процессор. Это создаёт дополнительную нагрузку на чип, ускоряя его износ, и на фазы питания — поскольку выше энергопотребление. По сути, такой режим работы превращает видеокарту в подопытного кролика в непрерывном стресс-тесте, что не может не сказаться на её долговечности — и отказать здесь могут буквально все компоненты, включая чип, память и VRM.
Не рискуйте: видеокарты после ИИ лучше обойти стороной. Статистика
Если с видеокартами после майнинга ещё можно было рискнуть, тщательно взвесив все за и против, то в случае с картами после ИИ риск становится неоправданно высоким.
Чтобы не быть голословным, приведу немного статистики. У моего знакомого, который занимается именно таким ИИ-бизнесом (куда пришёл из майнинга), за неполный год работы вышло из строя и отправилось на гарантию около 20% видеокарт, даже с учетом малой выборки. И это при том, что речь идёт о новом оборудовании, купленном специально под эти задачи.
Вот немного обезличенных (по просьбе друга убрал фото стоек) данных, учитываются только GPU, не бывшие до этого в майнинге:
| Тип видеокарты | Было (на 28.10.2023) | Отказало к июню 2024 | Процент отказа |
| RTX 3080/12 | 20 | 6 (из них 2 уже после гарантийного ремонта) | 30% |
| RTX 3090 | 8 | 1 | 12.5% |
| RTX 4070 | 12 | 3 | 25% |
| RTX 4090 | 2 | 0 | 0% |
| Итого | 42* | 10 | 24% |
Да, статистика не бог весть какая, но другой у меня нет — и эта, думаю, показательна. Для сравнения, средние данные по индустрии для тех, кто на GPU играет — до 1.25% в годовом исчислении, то есть даже на недостаточной выборке видно, что процент отказов крайне высок. Впрочем, важно учитывать, что видеокарты серии RTX 30 к началу таблицы проработали уже около трёх-пяти месяцев в «пилотном проекте».
Теперь представьте, что будет, когда эти карты начнут массово списывать и продавать на вторичном рынке — скорее всего, уже на исходе гарантийного срока, чтобы не платить за неизбежный ремонт самим. Вы рискуете купить устройство, которое проработает считанные недели или месяцы, не говоря уже о «прогревастах» и прочих любителях предпродажной подготовки.
Поэтому мой совет — не гонитесь за призрачной экономией. Лучше немного подождать, накопить и купить новую карту с полной гарантией. Да, это дороже, но в долгосрочной перспективе вы останетесь в выигрыше. Если с видеокартами после майнинга ещё можно было рискнуть, взвесив все за и против, прикинув дисконт, риски и примерный остаточный ресурс карты, то с GPU после интенсивного использования в ИИ-сервисах лучше не связываться вообще. ИМХО.
Почему видеокарты настолько подорожали: пора обновляться сейчас, завтра будет ещё дороже
* — Экологическое движение «42» — признано иностранным агентом





16 комментариев
Добавить комментарий
2) Перечитайте описание. Я ясно указал, что отвал — «второй» по частоте в таких нагрузках, а на фото прогар.
3) Очень распространённый, так-то. Загуглите «ai image generation online» (или русский аналог), и найдёте несколько сотен сайтов разной убогости, с шаблонным веб дизайном, враппером промта плюс части крутилок и криво прикрученным биллингом.
4) Не соответствует. В игре нагрузка более менее стабильна, всё время работы идёт d3d-рендер различной нагрузки. В идеальных условиях (боттлнек в GPU и нет лока кадров) она вообще на 90-100% шарашит всё время сессии. И даже в неидеальных это всё равно не 0-100 по кругу, бросающий хотспот на десятки градусов туда-сюда.
Не отрицаю, есть модели, которые довольно сильно нагружают ГПУ. Stable Diffusion — как вариант. Там действительно нагружаются ядра, что хорошо видно, если погнать карту по ядру — прирост существенный, и температуры растут заметно.
С другой стороны, есть LLM. Там нагрузка на ядра ничтожна, карта не греется вообще. Прироста может не быть, даже если поменять карту на старшую в линейке, при условии одинаковой частоты памяти и шины. Точнее, он будет, но будет ничтожным — все упирается в ПСП. И чип холодный, там активно работают только тензорные ядра и IMC.
За свертку белков не скажу, не шарю.
И я пробовал по фану участвовать в Kobold Horde — если хостить модели, которые пользуются популярностью, термоциклирования не будет — запросы приходят быстро, не давая карточке остыть. При адекватном охладе температура стабильна.
1.5) Действительно, зависит от типа сети. Но за LLM не соглашусь, там тоже от типа сети зависит. Тот же мистраль и ядра грузит.
2) Это в Horde, где нагрузка стабильно превышает возможности сети. А в SaaS будет хронический недогруз, потому что ждать 200+ секунд очереди в пиковые часы платящий клиент не будет. Точнее, будет, но подписку продлевать откажется.
И жалуются потом, что видюхи изнашиваются. В нормальном обществе пальцы отрезают за такое отношение к технике.
Буквально в мае закончили аудит чуть больше 5000 видеокарт, работавших с осени 2019 по октябрь 2023 (по таймспану не сложно догадаться в каком сервисе они работали). Использовались для игр и ИИ 24/7 нагрузка не самая равномерная (ночью мало кто играет).
Результат: 0.2% вышедших из строя видеокарт. Полностью мертвая ОДНА — там умер чип. Остальные проблемы — только память, которые были решены перепайкой.
1) Даже если ночью мало кто играет, это всё равно сессионная нагрузка. Подключились на полчаса, поиграли, чип за полчаса остыл, повторить. А с SaaS ИИ время термального цикла может измеряться в минутах: пришёл клиент, заказал свой веер картинок, ушёл — GPU, соответственно, за пару минут нагрелся и остыл. А через пару минут ещё запрос, смыть, повторить. Это в худшем случае.
2) Что-то мне подсказывает, что 5к карт стояли в хорошем кластере, со стабильным питанием (а не суперкитайскими двухкиловаттниками с колхозной разводкой на несколько карт) и нормальным обдувом (который отчасти нивелирует эффект термальных циклов — одно дело разгон с 20 до 50 градусов, и другой с 30 до 90).
Добавить комментарий