Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Почему покупать видеокарту после работы с ИИ опаснее, чем после майнинга. Личный опыт и статистика

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

19 июля 2024, 10:20 | Мнение | Платформа ПК

Совсем недавно мы переживали бум криптовалют и связанный с ним дефицит видеокарт. И вот, не успели геймеры оправиться от одного потрясения, как на горизонте замаячило новое. На этот раз виновником стал искусственный интеллект. Видеокарты снова дорожают по экспоненте, и на этот раз конца-края проблеме не видно.

Однако, на вторичный рынок уже начали поступать тонкой струйкой первые партии RTX 30, использовавшиеся в небольших ИИ-комплексах, а в скором времени ожидается настоящий потоп из карт серий RTX 30/40. В условиях, когда цены на новые видеокарты бьют все рекорды, возникает закономерный вопрос: стоит ли рассматривать покупку таких б/у экземпляров?

Содержание

Характер нагрузки видеокарты в ИИ
В чём разница между ИИ и майнингом
Техническая сторона вопроса
Не рискуйте: видеокарты после ИИ лучше обойти стороной. Статистика

Характер нагрузки видеокарты в ИИ

Когда речь заходит о работе видеокарт с нейросетями, важно понимать, что существует два принципиально разных сценария работы.

Первый — это обучение моделей, но он нас мало касается. Там в ходу специализированные ИИ-ускорители с огромным объёмом памяти на борту, предназначенные для создания и оттачивания новых нейросетей. Они по окончанию гарантии уйдут на свалку или будут перепроданы корпоратам меньшего калибра, а потому нам неинтересны.
Куда интереснее второй режим — продакшен. Именно туда отправляются в том числе потребительские видеокарты, и именно там они проводят большую часть своей «трудовой» жизни. В этом режиме на картах разворачивают уже готовые, обученные модели (или, самое большее, дообучают имеющиеся), а машинное время продают как услугу (SaaS). Чаще всего речь идёт о чём-то вроде Stable Diffusion для генерации изображений или, реже, об открытых языковых моделях (LLM).

Такие кластеры нам неинтересны — там «работают» специализированные ускорители, которые после отправятся в утиль.
Автор: ChrisDag (CC BY 2.0) Источник: www.flickr.com

А вот это уже «наш клиент». И на грани гарантийного срока карты из «кустарных» стоек, отработавшие на краденном электричестве гарантийный срок радостно разбредутся по просторам Авито.
Автор: Jasper Reichardt (CC BY-SA 4.0) Источник: commons.wikimedia.org

Интересный нюанс заключается в том, что немалую часть этого рынка занимают не гиганты, а средний и малый бизнес.

Это предприниматели, которые покупают несколько десятков или сотен видеокарт, настраивают на них популярные ИИ-модели, разворачивают сайт на конструкторе и продают доступ всем желающим — дальше конкуренция становится вопросом хорошей рекламы и дешевой «розетки». И именно из-за этого нас может ждать ещё и двойной «удар» на рынке б/у видеокарт: первая волна пойдёт от плановой замены оборудования (что уже потихоньку начинается), а вторая может нахлынуть при массовом разорении таких бизнесов.

В чём разница между ИИ и майнингом

Теперь давайте разберёмся, чем же отличается работа видеокарты в ИИ-сервисе от её работы в майнинге криптовалют. Ключевое различие кроется в характере нагрузки.

При майнинге или обучении нейросетей нагрузка на видеокарту постоянна. Карта работает на полную мощность 24/7, без перерывов и колебаний. Это, конечно, тяжело для железа, но, по крайней мере, предсказуемо.
В случае с ИИ-сервисами картина совсем иная. Здесь нагрузка напоминает американские горки: резкие взлёты сменяются столь же резкими падениями. Когда поступает запрос от клиента, видеокарта мгновенно включается на полную мощность, обрабатывает задачу, а затем может уйти в режим ожидания до следующего запроса. И так по кругу, с пиковыми часами активности и периодами затишья.

Такой режим работы может показаться более щадящим, но на деле он гораздо опаснее для здоровья видеокарты. И вот почему:

Техническая сторона вопроса

Давайте углубимся в техническую сторону вопроса и разберёмся, почему циклическая нагрузка от ИИ-задач может быть губительной для видеокарты. Здесь мы сталкиваемся с тремя основными факторами риска, каждый из которых может привести к прогару или Его Величеству Отвалу.

Первый и наиболее частый при нормальной экспуатации виновник отказа видеокарт — циклы термального расширения. Когда видеокарта нагревается и остывает, различные её компоненты расширяются и сжимаются с разной скоростью. Это создаёт микронапряжения в структуре материалов, которые со временем могут привести к образованию трещин и разрывов в паяных соединениях. А это — прямой путь к отвалу.
Второй фактор — это физический износ самого графического чипа и сопутствующих деталей. При постоянной работе на высоких температурах и/или нагрузке в компонентах GPU могут происходить необратимые изменения на атомарном уровне (деградация). Самое частое следствие — разрушительный отказ одного из элементов фаз питания, с последующим глубоким прогаром на грани неремонтопригодности. Второе по частоте — даже если видеокарта каким-то чудом переживёт несколько лет в таком режиме, без даунклокинга или овервольта она может уже не завестись.
Третий аспект касается текстолита, на котором смонтированы все компоненты видеокарты. Длительное воздействие высоких температур может привести к его микродеформацииям и изменению свойств, что в свою очередь влияет на надёжность всей карты в целом. Тоже не в лучшую сторону, хоть и менее всего — в потенциальных итогах проявление «холодных паек», пониженная устойчивость к деформации под собственным весом и другие последствия меньшего калибра.

Собственно, самый частый итог «неигрового» насилия над GPU где-то посередине попытки негарантийного ремонта коллегой. Второй по распространённости — всё тот же Его Величество Отвал. Да, это 1070, но внутри с тех пор ничего не поменялось.
Автор: LeVK

И вот здесь кроется главная опасность ИИ-нагрузки: она умудряется сочетать все три фактора риска одновременно. Циклический характер работы (нагрев при обработке запроса, остывание в паузах) идеально подходит для создания термальных циклов. При этом общая продолжительность работы сравнима с майнингом — карты могут трудиться практически круглосуточно, с небольшими перерывами в зависимости от загрузки кластера.

Более того, в отличие от большинства видов майнинга, которые в основном нагружали только видеопамять, ИИ-задачи активно задействуют и сам графический процессор. Это создаёт дополнительную нагрузку на чип, ускоряя его износ, и на фазы питания — поскольку выше энергопотребление. По сути, такой режим работы превращает видеокарту в подопытного кролика в непрерывном стресс-тесте, что не может не сказаться на её долговечности — и отказать здесь могут буквально все компоненты, включая чип, память и VRM.

Не рискуйте: видеокарты после ИИ лучше обойти стороной. Статистика

Если с видеокартами после майнинга ещё можно было рискнуть, тщательно взвесив все за и против, то в случае с картами после ИИ риск становится неоправданно высоким.

Чтобы не быть голословным, приведу немного статистики. У моего знакомого, который занимается именно таким ИИ-бизнесом (куда пришёл из майнинга), за неполный год работы вышло из строя и отправилось на гарантию около 20% видеокарт, даже с учетом малой выборки. И это при том, что речь идёт о новом оборудовании, купленном специально под эти задачи.

Вот немного обезличенных (по просьбе друга убрал фото стоек) данных, учитываются только GPU, не бывшие до этого в майнинге:

Тип видеокарты	Было (на 28.10.2023)	Отказало к июню 2024	Процент отказа
RTX 3080/12	20	6 (из них 2 уже после гарантийного ремонта)	30%
RTX 3090	8	1	12.5%
RTX 4070	12	3	25%
RTX 4090	2	0	0%
Итого	42*	10	24%

Да, статистика не бог весть какая, но другой у меня нет — и эта, думаю, показательна. Для сравнения, средние данные по индустрии для тех, кто на GPU играет — до 1.25% в годовом исчислении, то есть даже на недостаточной выборке видно, что процент отказов крайне высок. Впрочем, важно учитывать, что видеокарты серии RTX 30 к началу таблицы проработали уже около трёх-пяти месяцев в «пилотном проекте».

Теперь представьте, что будет, когда эти карты начнут массово списывать и продавать на вторичном рынке — скорее всего, уже на исходе гарантийного срока, чтобы не платить за неизбежный ремонт самим. Вы рискуете купить устройство, которое проработает считанные недели или месяцы, не говоря уже о «прогревастах» и прочих любителях предпродажной подготовки.

Поэтому мой совет — не гонитесь за призрачной экономией. Лучше немного подождать, накопить и купить новую карту с полной гарантией. Да, это дороже, но в долгосрочной перспективе вы останетесь в выигрыше. Если с видеокартами после майнинга ещё можно было рискнуть, взвесив все за и против, прикинув дисконт, риски и примерный остаточный ресурс карты, то с GPU после интенсивного использования в ИИ-сервисах лучше не связываться вообще. ИМХО.

Почему видеокарты настолько подорожали: пора обновляться сейчас, завтра будет ещё дороже

* — Экологическое движение «42» — признано иностранным агентом

16 комментариев

Добавить комментарий

Лучше немного подождать, накопить и купить новую карту с полной гарантией

с полной гарантией магазина? :)

Ответить

Да. Даже сейчас это 6-12 месяцев полной и два года — с экспертизой.

Ответить

Бу лучше вообще не покупать. А так, описанные процессы происходят во всех электронных устройствах в том или ином виде.

Ответить

На одном фото явно майнинг ферма в деревенском доме и на карточках древних типа 1060. На том фото, где по словам автора «отвал» имеет место сгоревший силовой элемент в цепи питания. Отвал же это когда пайка непосредственно gpu деградировала. После всех этих неточностей и допущений не очень верится во всю нагнанную автором жуть. Фото нет (друг просил не выкладывать), почему не понятно, не его же фото, а карт. Карт у друга мало, что он с ними творил непонятно, если эта вся история вообще не вымышленная. Первый раз слышу про такой бизнес, где человек имея десяток карт, сдает их в аренду для ИИ по типу облачного сервиса. Ну и такой режим работы, допустим, соответствует игровой нагрузке, там загруженность карты то же постоянно меняется и все эти температурные перепады в конструкции учтены.

Ответить

1) Потому что фото из свободного доступа, в иллюстративных целях, и это промаркировано. Друг оказался категорически против фото его стоек. Видимо, потому что уходит от налогов плюс пользуется бесплатной розеткой от шараги, хотя как его можно было бы опознать по стойке со стеной на фоне я в душе не имею.
2) Перечитайте описание. Я ясно указал, что отвал — «второй» по частоте в таких нагрузках, а на фото прогар.
3) Очень распространённый, так-то. Загуглите «ai image generation online» (или русский аналог), и найдёте несколько сотен сайтов разной убогости, с шаблонным веб дизайном, враппером промта плюс части крутилок и криво прикрученным биллингом.
4) Не соответствует. В игре нагрузка более менее стабильна, всё время работы идёт d3d-рендер различной нагрузки. В идеальных условиях (боттлнек в GPU и нет лока кадров) она вообще на 90-100% шарашит всё время сессии. И даже в неидеальных это всё равно не 0-100 по кругу, бросающий хотспот на десятки градусов туда-сюда.

Ответить

Вы делаете некорректное обобщение. О каких именно нейросетях идёт речь?
Не отрицаю, есть модели, которые довольно сильно нагружают ГПУ. Stable Diffusion — как вариант. Там действительно нагружаются ядра, что хорошо видно, если погнать карту по ядру — прирост существенный, и температуры растут заметно.
С другой стороны, есть LLM. Там нагрузка на ядра ничтожна, карта не греется вообще. Прироста может не быть, даже если поменять карту на старшую в линейке, при условии одинаковой частоты памяти и шины. Точнее, он будет, но будет ничтожным — все упирается в ПСП. И чип холодный, там активно работают только тензорные ядра и IMC.
За свертку белков не скажу, не шарю.
И я пробовал по фану участвовать в Kobold Horde — если хостить модели, которые пользуются популярностью, термоциклирования не будет — запросы приходят быстро, не давая карточке остыть. При адекватном охладе температура стабильна.

Ответить

1) У моего коллеги — 100% на Stable Diffusion трудятся, в ближайшем планирует развернуть LLM на бурж.
1.5) Действительно, зависит от типа сети. Но за LLM не соглашусь, там тоже от типа сети зависит. Тот же мистраль и ядра грузит.
2) Это в Horde, где нагрузка стабильно превышает возможности сети. А в SaaS будет хронический недогруз, потому что ждать 200+ секунд очереди в пиковые часы платящий клиент не будет. Точнее, будет, но подписку продлевать откажется.

Ответить

Обеспечивайте на ваших «фермах» для муйнига и убучению ИИ нормальное охлаждение и профилактику оборудования. И ничего гореть не будет. Нет, впихают друг к другу впритык, плюют на охлаждение, нагружают сверх меры, да еще и разгоном балуются.
И жалуются потом, что видюхи изнашиваются. В нормальном обществе пальцы отрезают за такое отношение к технике.

Ответить

100%. Работал на сервисе 5 лет. Все правильно сказал надо правильно эксплуатировать систему охлаждения.

Ответить

Главное не что видяха делает а как за ней ухаживать. Это не бережёт на 100% от поломки но заметно снизит риск её!

Ответить

Не могу не согласиться, но… Задам встречный вопрос. Откуда знать, как именно относился к видеокарте вот этот конкретный продаван со вторички?

Ответить

Автор, вы в видеокартах разбираетесь вообще или просто хайп собираете?
Буквально в мае закончили аудит чуть больше 5000 видеокарт, работавших с осени 2019 по октябрь 2023 (по таймспану не сложно догадаться в каком сервисе они работали). Использовались для игр и ИИ 24/7 нагрузка не самая равномерная (ночью мало кто играет).
Результат: 0.2% вышедших из строя видеокарт. Полностью мертвая ОДНА — там умер чип. Остальные проблемы — только память, которые были решены перепайкой.

Ответить

Второе.

Ответить

Думаю, тут играют два фактора:
1) Даже если ночью мало кто играет, это всё равно сессионная нагрузка. Подключились на полчаса, поиграли, чип за полчаса остыл, повторить. А с SaaS ИИ время термального цикла может измеряться в минутах: пришёл клиент, заказал свой веер картинок, ушёл — GPU, соответственно, за пару минут нагрелся и остыл. А через пару минут ещё запрос, смыть, повторить. Это в худшем случае.
2) Что-то мне подсказывает, что 5к карт стояли в хорошем кластере, со стабильным питанием (а не суперкитайскими двухкиловаттниками с колхозной разводкой на несколько карт) и нормальным обдувом (который отчасти нивелирует эффект термальных циклов — одно дело разгон с 20 до 50 градусов, и другой с 30 до 90).

Ответить

Вы знаете, мой друг тоже занимается нейросетями и у него статистика совсем другая. Ни одного отказа за 5 лет работы.

Ответить

Почитал статью, возник вопрос, при работе с Stable Diffusion с 4080super, скачки температуры с 39 до 53 при генерации, цикл каждые 30 секунд, сильно ли такая амплитуда убивает карту? Хотел бы услышать знающих людей)

Ответить

Добавить комментарий

Сейчас на главной

Новости

Физики-теоретики предложили новую модель Вселенной с 7 измерениями: три пространственных, одно временное и три скрытых

Наука и космос
15 минут назад
0

Решение проблем поездок в тесном городе - компактность с малым весом, маневренность, запас прочности. Компания ENGWE на днях выпустила складной электровелосипед ZIP

Авто и транспорт
15 минут назад
0

Никакого AMOLED, батарея на 7200 мАч и "защита IP69+": смартфон iQOO Z11x приехал в Россию

Смартфоны и телефоны
44 минуты назад
0

Суд США признал законным пост Илона Маска о профсоюзах в Tesla

Оффтопик
1 час назад
0

JD.com анонсировала новую камеру, которая будет записывать видео для обучения ИИ

Публикации

Самые крупные карповые в мире и в России: история семейства, размеры и что из них готовят

Мнение
1 час назад
Флора и фауна

Когда слышишь слово «карповые», в голове обычно возникает что-то очень земное и понятное: карась в деревенском пруду, карп на рынке, сазан в рассказах рыбаков. Но у этого семейства есть и совсем...

✦ ИИ 5 сервисов для создания презентаций с опросами: для учителей, маркетологов и бизнеса

Тематическая подборка
1 час назад
ИИ, сервисы и приложения

Нужно собрать обратную связь, проверить гипотезу или просто узнать, что думают люди? Рассказываем, где создать опрос за 5 минут, какие сервисы работают в РФ, как проводить голосования в реальном...

Где можно увидеть Стоунхендж, не выезжая за границы России

Статья
1 час назад
Путешествия и туризм

Мысль о том, чтобы увидеть чудо света или загадку истории нужно выезжать за тридевять земель, настолько укрепилась в сознании, что интересных мест поближе как будто и нет вовсе.Итак, для всех...

Обзор бесщеточной аккумуляторной пилы ProCraft PKA45 (PKA46): 2 аккумулятора, 2 шины и 2 цепи

Обзор
4 часа назад
Инструменты и запчасти

Во время работы в саду или на приусадебном участке приходится срезать деревья и кустарники. Порой они достаточно толстые, чтобы справиться с ними вручную, и приходится доставать электрические или...

6 причин почему кофе из кофемашины дома получается хуже, чем в кофейне — и как это исправить

Тематическая подборка
4 часа назад
Оффтопик

Вы потратили приличную сумму на современную кофемашину, выбираете дорогое зерно, но утренний эспрессо всё равно получается плоским, горчит или подозрительно напоминает напиток из вокзального...

Паводок и половодье: основные различия и причины возникновения

Мнение
4 часа назад
Оффтопик

Весна время большой воды. Понятия «паводок» и «половодье» часто путают, хотя это разные гидрологические явления. Разберём их суть, отличия и особенности ниже. Автор: Heavylift Источник:...