Почему покупать видеокарту после работы с ИИ опаснее, чем после майнинга. Личный опыт и статистика

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Платформа ПК

Совсем недавно мы переживали бум криптовалют и связанный с ним дефицит видеокарт. И вот, не успели геймеры оправиться от одного потрясения, как на горизонте замаячило новое. На этот раз виновником стал искусственный интеллект. Видеокарты снова дорожают по экспоненте, и на этот раз конца-края проблеме не видно.

Однако, на вторичный рынок уже начали поступать тонкой струйкой первые партии RTX 30, использовавшиеся в небольших ИИ-комплексах, а в скором времени ожидается настоящий потоп из карт серий RTX 30/40. В условиях, когда цены на новые видеокарты бьют все рекорды, возникает закономерный вопрос: стоит ли рассматривать покупку таких б/у экземпляров?

Характер нагрузки видеокарты в ИИ

Когда речь заходит о работе видеокарт с нейросетями, важно понимать, что существует два принципиально разных сценария работы.

  1. Первый — это обучение моделей, но он нас мало касается. Там в ходу специализированные ИИ-ускорители с огромным объёмом памяти на борту, предназначенные для создания и оттачивания новых нейросетей. Они по окончанию гарантии уйдут на свалку или будут перепроданы корпоратам меньшего калибра, а потому нам неинтересны.
  2. Куда интереснее второй режим — продакшен. Именно туда отправляются в том числе потребительские видеокарты, и именно там они проводят большую часть своей «трудовой» жизни. В этом режиме на картах разворачивают уже готовые, обученные модели (или, самое большее, дообучают имеющиеся), а машинное время продают как услугу (SaaS). Чаще всего речь идёт о чём-то вроде Stable Diffusion для генерации изображений или, реже, об открытых языковых моделях (LLM).

Интересный нюанс заключается в том, что немалую часть этого рынка занимают не гиганты, а средний и малый бизнес.

Это предприниматели, которые покупают несколько десятков или сотен видеокарт, настраивают на них популярные ИИ-модели, разворачивают сайт на конструкторе и продают доступ всем желающим — дальше конкуренция становится вопросом хорошей рекламы и дешевой «розетки». И именно из-за этого нас может ждать ещё и двойной «удар» на рынке б/у видеокарт: первая волна пойдёт от плановой замены оборудования (что уже потихоньку начинается), а вторая может нахлынуть при массовом разорении таких бизнесов.

В чём разница между ИИ и майнингом

Теперь давайте разберёмся, чем же отличается работа видеокарты в ИИ-сервисе от её работы в майнинге криптовалют. Ключевое различие кроется в характере нагрузки.

  • При майнинге или обучении нейросетей нагрузка на видеокарту постоянна. Карта работает на полную мощность 24/7, без перерывов и колебаний. Это, конечно, тяжело для железа, но, по крайней мере, предсказуемо.
  • В случае с ИИ-сервисами картина совсем иная. Здесь нагрузка напоминает американские горки: резкие взлёты сменяются столь же резкими падениями. Когда поступает запрос от клиента, видеокарта мгновенно включается на полную мощность, обрабатывает задачу, а затем может уйти в режим ожидания до следующего запроса. И так по кругу, с пиковыми часами активности и периодами затишья.

Такой режим работы может показаться более щадящим, но на деле он гораздо опаснее для здоровья видеокарты. И вот почему:

Техническая сторона вопроса

Давайте углубимся в техническую сторону вопроса и разберёмся, почему циклическая нагрузка от ИИ-задач может быть губительной для видеокарты. Здесь мы сталкиваемся с тремя основными факторами риска, каждый из которых может привести к прогару или Его Величеству Отвалу.

  • Первый и наиболее частый при нормальной экспуатации виновник отказа видеокарт — циклы термального расширения. Когда видеокарта нагревается и остывает, различные её компоненты расширяются и сжимаются с разной скоростью. Это создаёт микронапряжения в структуре материалов, которые со временем могут привести к образованию трещин и разрывов в паяных соединениях. А это — прямой путь к отвалу.
  • Второй фактор — это физический износ самого графического чипа и сопутствующих деталей. При постоянной работе на высоких температурах и/или нагрузке в компонентах GPU могут происходить необратимые изменения на атомарном уровне (деградация). Самое частое следствие — разрушительный отказ одного из элементов фаз питания, с последующим глубоким прогаром на грани неремонтопригодности. Второе по частоте — даже если видеокарта каким-то чудом переживёт несколько лет в таком режиме, без даунклокинга или овервольта она может уже не завестись.
  • Третий аспект касается текстолита, на котором смонтированы все компоненты видеокарты. Длительное воздействие высоких температур может привести к его микродеформацииям и изменению свойств, что в свою очередь влияет на надёжность всей карты в целом. Тоже не в лучшую сторону, хоть и менее всего — в потенциальных итогах проявление «холодных паек», пониженная устойчивость к деформации под собственным весом и другие последствия меньшего калибра.
Собственно, самый частый итог «неигрового» насилия над GPU где-то посередине попытки негарантийного ремонта коллегой. Второй по распространённости — всё тот же Его Величество Отвал. Да, это 1070, но внутри с тех пор ничего не поменялось.
Автор: LeVK

И вот здесь кроется главная опасность ИИ-нагрузки: она умудряется сочетать все три фактора риска одновременно. Циклический характер работы (нагрев при обработке запроса, остывание в паузах) идеально подходит для создания термальных циклов. При этом общая продолжительность работы сравнима с майнингом — карты могут трудиться практически круглосуточно, с небольшими перерывами в зависимости от загрузки кластера.

Более того, в отличие от большинства видов майнинга, которые в основном нагружали только видеопамять, ИИ-задачи активно задействуют и сам графический процессор. Это создаёт дополнительную нагрузку на чип, ускоряя его износ, и на фазы питания — поскольку выше энергопотребление. По сути, такой режим работы превращает видеокарту в подопытного кролика в непрерывном стресс-тесте, что не может не сказаться на её долговечности — и отказать здесь могут буквально все компоненты, включая чип, память и VRM.

Не рискуйте: видеокарты после ИИ лучше обойти стороной. Статистика

Если с видеокартами после майнинга ещё можно было рискнуть, тщательно взвесив все за и против, то в случае с картами после ИИ риск становится неоправданно высоким.

Чтобы не быть голословным, приведу немного статистики. У моего знакомого, который занимается именно таким ИИ-бизнесом (куда пришёл из майнинга), за неполный год работы вышло из строя и отправилось на гарантию около 20% видеокарт, даже с учетом малой выборки. И это при том, что речь идёт о новом оборудовании, купленном специально под эти задачи.

Вот немного обезличенных (по просьбе друга убрал фото стоек) данных, учитываются только GPU, не бывшие до этого в майнинге:

Тип видеокарты Было (на 28.10.2023) Отказало к июню 2024 Процент отказа
RTX 3080/12 20 6 (из них 2 уже после гарантийного ремонта) 30%
RTX 3090 8 1 12.5%
RTX 4070 12 3 25%
RTX 4090 2 0 0%
Итого 42* 10 24%

Да, статистика не бог весть какая, но другой у меня нет — и эта, думаю, показательна. Для сравнения, средние данные по индустрии для тех, кто на GPU играет — до 1.25% в годовом исчислении, то есть даже на недостаточной выборке видно, что процент отказов крайне высок. Впрочем, важно учитывать, что видеокарты серии RTX 30 к началу таблицы проработали уже около трёх-пяти месяцев в «пилотном проекте».

Теперь представьте, что будет, когда эти карты начнут массово списывать и продавать на вторичном рынке — скорее всего, уже на исходе гарантийного срока, чтобы не платить за неизбежный ремонт самим. Вы рискуете купить устройство, которое проработает считанные недели или месяцы, не говоря уже о «прогревастах» и прочих любителях предпродажной подготовки.

Поэтому мой совет — не гонитесь за призрачной экономией. Лучше немного подождать, накопить и купить новую карту с полной гарантией. Да, это дороже, но в долгосрочной перспективе вы останетесь в выигрыше. Если с видеокартами после майнинга ещё можно было рискнуть, взвесив все за и против, прикинув дисконт, риски и примерный остаточный ресурс карты, то с GPU после интенсивного использования в ИИ-сервисах лучше не связываться вообще. ИМХО.

Почему видеокарты настолько подорожали: пора обновляться сейчас, завтра будет ещё дороже

* — Экологическое движение «42» — признано иностранным агентом

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Наношу добро, причиняю пользу, благодарен за лайки и содержательные (дополняющие статьи) комментарии.

16 комментариев

s
Лучше немного подождать, накопить и купить новую карту с полной гарантией
с полной гарантией магазина? :)
LeVK
Да. Даже сейчас это 6-12 месяцев полной и два года — с экспертизой.
v
Бу лучше вообще не покупать. А так, описанные процессы происходят во всех электронных устройствах в том или ином виде.
835261415512@odnoklassniki
На одном фото явно майнинг ферма в деревенском доме и на карточках древних типа 1060. На том фото, где по словам автора «отвал» имеет место сгоревший силовой элемент в цепи питания. Отвал же это когда пайка непосредственно gpu деградировала. После всех этих неточностей и допущений не очень верится во всю нагнанную автором жуть. Фото нет (друг просил не выкладывать), почему не понятно, не его же фото, а карт. Карт у друга мало, что он с ними творил непонятно, если эта вся история вообще не вымышленная. Первый раз слышу про такой бизнес, где человек имея десяток карт, сдает их в аренду для ИИ по типу облачного сервиса. Ну и такой режим работы, допустим, соответствует игровой нагрузке, там загруженность карты то же постоянно меняется и все эти температурные перепады в конструкции учтены.
LeVK
1) Потому что фото из свободного доступа, в иллюстративных целях, и это промаркировано. Друг оказался категорически против фото его стоек. Видимо, потому что уходит от налогов плюс пользуется бесплатной розеткой от шараги, хотя как его можно было бы опознать по стойке со стеной на фоне я в душе не имею.
2) Перечитайте описание. Я ясно указал, что отвал — «второй» по частоте в таких нагрузках, а на фото прогар.
3) Очень распространённый, так-то. Загуглите «ai image generation online» (или русский аналог), и найдёте несколько сотен сайтов разной убогости, с шаблонным веб дизайном, враппером промта плюс части крутилок и криво прикрученным биллингом.
4) Не соответствует. В игре нагрузка более менее стабильна, всё время работы идёт d3d-рендер различной нагрузки. В идеальных условиях (боттлнек в GPU и нет лока кадров) она вообще на 90-100% шарашит всё время сессии. И даже в неидеальных это всё равно не 0-100 по кругу, бросающий хотспот на десятки градусов туда-сюда.
1
Вы делаете некорректное обобщение. О каких именно нейросетях идёт речь?
Не отрицаю, есть модели, которые довольно сильно нагружают ГПУ. Stable Diffusion — как вариант. Там действительно нагружаются ядра, что хорошо видно, если погнать карту по ядру — прирост существенный, и температуры растут заметно.
С другой стороны, есть LLM. Там нагрузка на ядра ничтожна, карта не греется вообще. Прироста может не быть, даже если поменять карту на старшую в линейке, при условии одинаковой частоты памяти и шины. Точнее, он будет, но будет ничтожным — все упирается в ПСП. И чип холодный, там активно работают только тензорные ядра и IMC.
За свертку белков не скажу, не шарю.
И я пробовал по фану участвовать в Kobold Horde — если хостить модели, которые пользуются популярностью, термоциклирования не будет — запросы приходят быстро, не давая карточке остыть. При адекватном охладе температура стабильна.
LeVK
1) У моего коллеги — 100% на Stable Diffusion трудятся, в ближайшем планирует развернуть LLM на бурж.
1.5) Действительно, зависит от типа сети. Но за LLM не соглашусь, там тоже от типа сети зависит. Тот же мистраль и ядра грузит.
2) Это в Horde, где нагрузка стабильно превышает возможности сети. А в SaaS будет хронический недогруз, потому что ждать 200+ секунд очереди в пиковые часы платящий клиент не будет. Точнее, будет, но подписку продлевать откажется.
102655002127258554820@google
Обеспечивайте на ваших «фермах» для муйнига и убучению ИИ нормальное охлаждение и профилактику оборудования. И ничего гореть не будет. Нет, впихают друг к другу впритык, плюют на охлаждение, нагружают сверх меры, да еще и разгоном балуются.
И жалуются потом, что видюхи изнашиваются. В нормальном обществе пальцы отрезают за такое отношение к технике.
P
100%. Работал на сервисе 5 лет. Все правильно сказал надо правильно эксплуатировать систему охлаждения.
P
Главное не что видяха делает а как за ней ухаживать. Это не бережёт на 100% от поломки но заметно снизит риск её!
LeVK
Не могу не согласиться, но… Задам встречный вопрос. Откуда знать, как именно относился к видеокарте вот этот конкретный продаван со вторички?
Александр Мков
Автор, вы в видеокартах разбираетесь вообще или просто хайп собираете?
Буквально в мае закончили аудит чуть больше 5000 видеокарт, работавших с осени 2019 по октябрь 2023 (по таймспану не сложно догадаться в каком сервисе они работали). Использовались для игр и ИИ 24/7 нагрузка не самая равномерная (ночью мало кто играет).
Результат: 0.2% вышедших из строя видеокарт. Полностью мертвая ОДНА — там умер чип. Остальные проблемы — только память, которые были решены перепайкой.
LeVK
Думаю, тут играют два фактора:
1) Даже если ночью мало кто играет, это всё равно сессионная нагрузка. Подключились на полчаса, поиграли, чип за полчаса остыл, повторить. А с SaaS ИИ время термального цикла может измеряться в минутах: пришёл клиент, заказал свой веер картинок, ушёл — GPU, соответственно, за пару минут нагрелся и остыл. А через пару минут ещё запрос, смыть, повторить. Это в худшем случае.
2) Что-то мне подсказывает, что 5к карт стояли в хорошем кластере, со стабильным питанием (а не суперкитайскими двухкиловаттниками с колхозной разводкой на несколько карт) и нормальным обдувом (который отчасти нивелирует эффект термальных циклов — одно дело разгон с 20 до 50 градусов, и другой с 30 до 90).
Grolribasi
Вы знаете, мой друг тоже занимается нейросетями и у него статистика совсем другая. Ни одного отказа за 5 лет работы.
b
Почитал статью, возник вопрос, при работе с Stable Diffusion с 4080super, скачки температуры с 39 до 53 при генерации, цикл каждые 30 секунд, сильно ли такая амплитуда убивает карту? Хотел бы услышать знающих людей)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор портативного ирригатора Monteri AquaPulse с 6 насадками и съемным баком для воды

Портативный ирригатор MONTERI AquaPulse. 4 режима работы, 6 сменных насадок, объем резервуара для воды 300мл, давление струи до 830 кПа, а количество импульсов до 1800 в минуту, аккумулятор 1500мАч

3 причины, почему незнакомцы просят «позвонить с вашего телефона» — и почему лучше отказать

Вы стоите на улице, к вам подходит человек — приветливый, улыбается, аккуратно одет: «Извините, можно позвонить с вашего телефона? Очень срочно». Инстинктивно многие протягивают...

Почему количество мегапикселей не главное в фотокамерах

В мире фотографии давно сложился миф, что чем больше мегапикселей в камере, тем лучше снимки. Производители смартфонов и фотоаппаратов активно используют эту цифру в рекламе, подчеркивая наличие...

Ловит даже Китай и питается от 18650 аккумулятора. Обзор всеволнового радиоприёмника XHDATA 368

Искал я себе радиоприёмник на случай ЧС и выездов на природу. С питанием от сменного 18650 аккумулятора и с Bluetooth, чтобы слушать свою музыку. С приёмом КВ, чтобы ловить вдали от города. Ну...

На что способен бюджетный мультитул: обзор FinePower MFT9

Карманный раскладной мультитил с пассатижами в основании не займет много места, но при этом способен решать задачи по ремонту снаряжения и работе с крепежом. Но для периодического применения...

Обзор смартфона Cubot KingKong ES3: бюджетник с серьезной защитой за 9000 рублей

Что стоит ожидать от смартфона с ценником ~ 9000 рублей? Новый KingKong ES3 от Cubot — это недорогая модель с защитой от падений, воды/грязи/пыли, с экраном 120 Гц, с возможностью...