Скрытые дефекты микросхем могут приводить к повреждению данных в современных компьютерах
Специалисты, работающие с крупномасштабными дата-центрами, бьют тревогу: сообщая о подрыве одной из фундаментальных обещаний вычислительной техники — ее надежности. Речь идет о проблеме, известной как скрытое нарушение целостности данных (Silent Data Corruption, SDC). Это явление заключается в том, что аппаратные дефекты микросхем приводят к искажению результатов работы программ, при этом не вызывая сбоев, ошибок или каких-либо явных сигналов о проблеме.
Корнем проблемы являются дефекты в кремниевых компонентах процессоров, графических ускорителей и специализированных чипов для искусственного интеллекта. Эти дефекты могут возникнуть на стадиях проектирования и производства микросхем, а также появиться позднее вследствие старения компонентов или воздействия внешней среды. Несмотря на то, что производители проводят тестирование на наличие большинства дефектов в своих микросхемах, даже самые строгие заводские проверки выявляют лишь около 95-99% подобных проблем. Неизбежно, какая-то часть дефектных чипов попадает в эксплуатацию.
В ряде случаев такие дефекты провоцируют заметные сбои, например, приводя к зависанию системы. Однако гораздо более серьезную озабоченность у специалистов вызывают скрытые ошибки. При таком сценарии неисправный логический блок или арифметический узел выдает неверное значение в работе вычислительных систем. Если это некорректное значение распространяется в программе, не будучи обнаруженным механизмами проверки, система успешно завершает поставленную задачу и предоставляет неверный результат в виде правильного.
Долгое время считалось, что скрытые сбои в процессорах — явление редкое, почти фантастическое. Однако крупные операторы на рынке гипермасштабируемых вычислительных систем, в том числе Google и Alibaba, сообщают, что в среднем один процессор из тысячи в их парке может генерировать скрытые ошибки при определенных условиях. Подобные опасения высказываются специалистами и в отношении графических процессоров и ускорителей искусственного интеллекта.
Источник: digitaltrends





0 комментариев
Добавить комментарий