Оценка надежности накопителей, установленных в настольных компьютерах и бытовых электронных устройствах


Введение

Устройства хранения информации на жестких дисках традиционно устанавливались главным образом на настольных компьютерах, однако в последнее время накопители все чаще находят применение и в бытовой электронике. В настоящей статье описываются способы оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных устройствах, с использованием результатов стандартных лабораторных испытаний компании Seagate.

Определения

Под наработкой на отказ Seagate подразумевает отношение времени РОН (Power-On Hours — время в часах, в течение которого накопитель находился во включенном состоянии) в течение года к усредненной интенсивности отказов AFR (Annualized Failure Rate — годовая интенсивность отказов) за первый год. Такой метод дает достаточную точность при малом количестве отказов, поэтому мы используем его для расчета наработки на отказ «первого года». Усредненная годовая интенсивность отказов для накопителя рассчитывается на основе данных о времени безотказной работы, полученных в ходе испытаний RDT (Reliability-Demonstration Test — демонстрационные испытания надежности). По той же методике проводятся и заводские испытания FRDT (Factory Reliability-Demonstration Test — заводские демонстрационные испытания надежности), однако здесь проверяются серийные накопители из производственных серий. В рамках настоящего документа мы будем исходить из того, что любая концепция, применимая в отношении RDT, справедлива также и для FRDT.

Испытания на надежность, проводимые Seagate

В Группе персональных устройств хранения Seagate со штаб-квартирой в г. Лонгмонт (шт. Колорадо) испытания накопителей для настольных систем на надежность обычно проводятся в термокамерах при температуре окружающей среды +42 градуса по Цельсию, что повышает интенсивность отказов. Кроме того, накопители при этом эксплуатируются с максимально возможной продолжительностью включения (под продолжительностью включения дисковода понимается количество поисков данных, их считывания и записи в течение заданного отрезка времени). Это делается для того, чтобы выявить как можно больше причин отказа еще на стадии разработки изделия. Устранив проблемы, отмеченные на этом этапе, мы можем быть уверены, что наши пользователи с ними больше не столкнутся.

Оценка параметров по Weibull

Предположим, что испытанию RDT были подвергнуты 500 накопителей, каждый из которых проработал 672 часа при температуре окружающей среды 42°С. Допустим также, что в ходе испытания было отмечено три отказа (после 12, 133 и 232 часов работы). Это означает, что из 500 проверенных накопителей успешно прошли испытание 497. Для анализа и экстраполяции полученных результатов мы применяем моделирование по Weibull, используя для этого пакет программ SuperSmith фирмы Fulton Findings1. В частности, с помощью метода максимального правдоподобия производится оценка таких параметров распределения Weibull, как бета (форм-фактор) и эта (масштабный коэффициент).

(То есть априори предполагается, что отказы распределены согласно Weibull. Для тех, кто знаком с математической статистикой, приведу формулу плотности вероятности для этого распределения:

Weibull Distribution

Смысл проводимых испытаний — оценить параметры распределения. При этом считается, что при заданном значении бета параметр эта равен времени в часах, за которое выйдут из строя 90% тестируемых накопителей. (Обсуждение данной математической модели требует серьезных познаний в математической статистике и выходит за рамки данной статьи, поэтому предлагается принять ее как факт) — прим. редактора)
.

Если в ходе испытания отмечено пять или менее отказов, точно определить параметр бета по полученным данным невозможно. Поскольку такие результаты испытаний встречаются довольно часто, мы анализируем их с помощью метода WeiBayes2, в основу которого положена оценка параметра бета по статистическим данным. В лаборатории продукции для настольных компьютеров мы сейчас принимаем бета = 0,55. Такое значение получено на основе производственных данных, представленных ниже в таблице. Она составлена на основании испытания всех накопителей для настольных систем, прошедших проверку до марта 1999 г.

Место производства накопителейБаза данныхСреднее значение бетаСтандартное отклонение бета
Лонгмонт37 RDT, 5 FRDT0,5460,176
Пераи2 RDT, 4 FRDT0,6170,068
Вузи1 RDT0,388нет данных
Обобщенные данные по настольным системам49 испытаний0,5520,167

Приведенный ниже график отображает результаты анализа Weibull и WeiBayes. Сплошная линия соответствует параметрам бета и эта по Weibull (бета = 0,443, эта = 69 331 860), рассчитанным по методу MLE (Maximum Likelihood — максимальное правдоподобие)3 всего для 3 отказов на 500 накопителей. Как уже отмечалось, такие результаты считаются не столь точными, как полученные по методу WeiBayes для небольшой интенсивности отказов.

Результаты, полученные методом WeiBayes (для бета = 0,55), представлены на графике пунктирной линией. Поскольку 672 часа работы при температуре 42°С для испытания RDT вполне достаточно, мы использовали свой внутренний параметр «доверительная вероятность прекращения испытаний»4, который для анализа WeiBayes принят равным 63,2%. Расчет по методу WeiBayes показал, что при температуре 42°С и статистическом значении бета = 0,55 приемлемое значение эта составляет 3 787 073 часа.

Легенда к графику «Примеры анализа по методам Weibull и WeiBayes»

W/mle = Доверительная вероятность прекращения испытаний
WeiBayes fit = Аппроксимация WeiBayes
Observed Weibull fit via MLE = Аппроксимация данных исследования по Weibull методом максимального правдоподобия
Eta = эта
Beta = бета
n/s = (всего/исправных накопителей)

Следующий этап анализа состоит в пересчете параметра эта, полученного в результате тестов при 42°С, в значение, соответствующее нашей стандартной рабочей температуре (25°С). Опираясь на модель Arrhenius5, для учета температурных различий можно принять коэффициент учащения отказов равным 2,2208. Таким образом, значение эта для 25°С (эта25) будет равным значению этого параметра для 42°С (эта42), умноженному на 2,2208, то есть, 8 410 332 часа.

Оценка среднего времени наработки на отказ в течение первого года на основании параметров Weibull

На основании параметров бета и эта Weibull, полученных после температурной коррекции, в любой момент можно рассчитать суммарный процент отказов. Чтобы оценить процент накопителей, которые могут выйти из строя при температуре 25°С в промежутке времени от t1 до t2, достаточно произвести вычитание значений суммарного процента отказа в моменты t1 и t2, а затем воспользоваться соответствующими значениями бета и эта25.

Для оценки усредненной интенсивности отказов (параметр AFR) за первый год эксплуатации накопителя, установленного в настольном компьютере, примем, что у пользователя устройство находится во включенном состоянии 2 400 часов в год. Допустим также, что еще 24 часа оно эксплуатировалось на заводе на этапе интеграции. Поскольку все накопители, вышедшие из строя в течение этого периода, возвращаются в Seagate и к конечному пользователю не попадают, при расчете AFR и наработки на отказ за первый год они не учитываются.

С учетом приведенного выше (продолжительность включения 100%, эта25 = 8 410 332 час, бета = 0,55 и общее время работы за год 2 400 час) относительную интенсивность отказов за первый год можно рассчитать как интенсивность отказов, произошедших в период между 24 час (t1) и 2 424 час (t2). Результаты такого расчета приведены ниже в таблице, построенной на основе наработки на отказ в течение первого года и данных, полученных в ходе испытаний RDT.

Исходные данные: 2 400 час/год
Форм-фактор по Weibull (бета):0,55
Масштабный коэффициент по Weibull (эта):8 410 332
  
Р(отказов) от 0 до 2 400 час/год:1,123%
Р(отказов) от 0 до 24 час:0,089%
 —————
AFR за первый год1,0338% (до округления)
  
Наработка за год: 2 400 час
AFR за первый год: 0,010338
 —————
Наработка на отказ за первый год по Weibull:232 140 час

(Р(отказов) вычисляются на основании распределения Weibull — см. график. Далее понятно: Наработка на отказ за первый год = Наработка за год / AFR за первый год — прим. редактора).

Учет реальных условий использования

Как показывают приведенные выше расчеты, если накопитель используется при температуре 25°С и находится во включенном состоянии 2 400 часов в год, можно ожидать, что при работе у пользователя средняя наработка на отказ составит 232 140 часов. Однако такие условия соблюдаются в бытовой электронике не всегда. В некоторых бытовых приборах, скажем, накопитель может работать почти непрерывно, поэтому время его работы за год намного превысит 2 400 часов. В других же устройствах, например, игровых видеоприставках, этот показатель может оказаться значительно ниже. В последующих разделах описано, как именно можно скорректировать расчетное значение наработки на отказ для различной интенсивности использования, продолжительности включения и окружающей температуры.

Интенсивность использования

Учесть изменения средней наработки на отказ, вызванные различиями в интенсивности использования накопителя, можно с помощью приведенного графика.

Легенда к графику «Коррекция среднего времени наработки на отказ в зависимости от ожидаемого времени работы накопителя за год»

Название вертикальной оси — Корректирующий множитель для наработки на отказ
Название горизонтальной оси — Ожидаемое время работы накопителя за год

Например, если известна наработка на отказ для 2 400 рабочих часов в год, а реальное рабочее время за год составляет 8 760 часов, то среднее время наработки на отказ снизится примерно вдвое. И наоборот: когда накопитель работает мало, как это бывает в некоторых игровых видеоприставках, то наработка на отказ может почти удвоиться.

Температура

Теперь давайте посмотрим, как изменяется время наработки на отказ при повышении рабочей температуры. Для построения графика температурного коэффициента времени наработки на отказ можно применить ту же модель Arrhenius, которую мы использовали для определения коэффициента учащения отказов. Представленная ниже таблица показывает, как снижается наработка на отказ за первый год (если продолжительность включения составляет 100%) при температуре окружающей среды выше 25°С.

Температура, °С Коэффициент учащения отказов Температурный коэффициент снижения времени наработки на отказ Скорректи- рованное время наработки на отказ
25 1,0000 1,00 232 140
26 1,0507 0,95 220 533
30 1,2763 0,78 181 069
34 1,5425 0,65 150 891
38 1,8552 0,54 125 356
42 2,2208 0,45 104 463
46 2,6465 0,38 88 123
50 3,1401 0,32 74 284
54 3,7103 0,27 62 678
58 4,3664 0,23 53 392
62 5,1186 0,20 46 428
66 5,9779 0,17 39 464
70 6,9562 0,14 32 500

Как видно из таблицы, по мере роста окружающей температуры температурный коэффициент снижения времени наработки на отказ и скорректированная наработка на отказ значительно сокращаются. Так, при 42°С коэффициент учащения отказов составляет 2,2208 (как и было определено в ходе настоящего анализа ранее). А коэффициент коррекции времени наработки на отказ для этой же температуры равен 0,45, то есть среднее время наработки на отказ при температуре 42°С оказывается в два с лишним раза меньше, чем при температуре 25°С.

Продолжительность включения

Продолжительность включения большинства накопителей, установленных в персональных компьютерах, составляет от 20 до 30%, тогда как в бытовых электронных устройствах этот показатель может быть выше или ниже. Измерив объем данных, который пересылается внутри современных устройств бытовой электроники за сутки, специалисты Seagate установили, что продолжительность включения накопителей в них составляет всего 2,5%.

Чтобы определить, как изменяется наработка на отказ при продолжительности включения 2,5% по сравнению со 100% (такое значение характерно для испытаний RDT), нужно выяснить, какое влияние на этот процесс оказывают те компоненты накопителей, состояние которых зависит от продолжительности включения, а какое — другие его элементы. Количество зависимых компонентов в накопителе прямо пропорционально количеству пластин жестких дисков в нем. Взаимоотношение между числом жестких дисков и усредненной интенсивности отказов за первый год отображено на следующей иллюстрации. Пространство под пунктирной линией на этом графике соответствует «базовой», — то есть, не зависящей от того, как долго работает устройство, — интенсивности отказов гипотетического накопителя с нулевым количеством жестких дисков (или накопителя, который не производит чтения, записи и поиска информации). Сплошной линией отмечена ожидаемая интенсивность отказов как функция количества жестких дисков.

Легенда к графику «Зависимость общей и базовой усредненной интенсивности отказов от количества жестких дисков в накопителе»

Название вертикальной оси — Нормализованное значение AFR
Название горизонтальной оси — Количество пластин жестких дисков (не более 4)
Total AFR = Общая усредненная интенсивность отказов
Base AFR = Базовая усредненная интенсивность отказов

Как видно из графика, уменьшение продолжительности включения снижает количество только тех отказов, которые связаны со временем работы накопителя (пространство между пунктирной и сплошной линиями). Зная соотношение между количеством отказов, зависящих от продолжительности включения, и их общим числом, можно оценить влияние продолжительности включения на усредненную интенсивность отказов AFR. Так, для накопителя с четырьмя жесткими дисками общая интенсивность отказов составит 1,4%, а базовая — 0,6%. Снижение продолжительности включения уменьшит вероятность отказа на [(1,4 — 0,6)/1,4] = 57%. Таким образом, снижая время работы четырехдискового накопителя, мы можем уменьшить вероятность отказа только на 57%, остальная доля неполадок от продолжительности включения не зависит.

Изменение коэффициента наработки на отказ для накопителей с разным количеством жестких дисков представлено на следующем графике.

Легенда к графику «Зависимость коэффициента наработки на отказ от продолжительности включения накопителя и количества жестких дисков в нем»

Название вертикальной оси — Коэффициент наработки на отказ
Название горизонтальной оси — Продолжительность включения
1-disk… = Для дисковода минимальной емкости с 1 жестким диском
2-disk… = Для дисковода с 2 жесткими дисками
3-disk… = Для дисковода с 3 жесткими дисками
4-disk… = Для дисковода максимальной емкости с 4 жесткими дисками

Комплексный учет нескольких факторов

Продолжая анализ, оценим комбинированное воздействие различных значений продолжительности включения и температурных коэффициентов сокращения наработки на отказ для нескольких накопителей. На графике внизу слева представлены коэффициенты коррекции наработки на отказ для накопителя высокой емкости с 4 жесткими дисками при разных комбинациях продолжительности включения и температуры окружающей среды. Рисунок справа отображает такие же коэффициенты для накопителя, оснащенного только одним жестким диском. Как видно из этих графиков, в зависимости от продолжительности включения и рабочей температуры накопителя, установленного в ПК, эффективная наработка на отказ за первый год может оказаться выше, равной или ниже, чем ожидаемое значение этого параметра, рассчитанное по результатам заводских испытаний. При этом на накопителе с одним жестким диском изменение продолжительности включения и окружающей температуры сказывается слабее, а коэффициенты коррекции здесь значительно меньше.

Легенда к графикам «Снижение времени наработки на отказ в зависимости от температуры и продолжительности включения (для накопителя максимальной емкости с 4 жесткими дисками/минимальной емкости с 1 жестким диском)»

Название вертикальной оси — Коэффициент снижения времени наработка на отказ
Название горизонтальной оси — Окружающая температура, °С
DF@100%... = Продолжительность включения = 100%
DF@30%... = Продолжительность включения = 30%
DF@20%... = Продолжительность включения = 20%
DF@10%... = Продолжительность включения = 10%
DF@5%... = Продолжительность включения = 5%
DF@1%... = Продолжительность включения = 1%

Надежность после первого года эксплуатации

Согласно распределению Weibull, описывающему зависимость наработки на отказ от срока эксплуатации, при значении бета меньше единицы вероятность отказов оборудования со временем снижается. По этой причине интенсивность отказов накопителей на первом году эксплуатации должна быть выше, чем в последующие годы. Но какова будет интенсивность отказов или среднее время наработки на отказ, если усреднить эти показатели за все время эксплуатации накопителя? Ниже приведены три метода оценки надежности, позволяющие ответить на этот вопрос.

  • Можно с помощью анализа Weibull (бета, эта25) оценить количество возможных отказов после первого года эксплуатации. Однако для этого потребовалось бы получить дополнительные данные демонстрационных испытаний надежности, увеличив длительность самих испытаний на порядок или больше. Такой подход едва ли можно признать целесообразным.
  • Можно использовать информацию о гарантийном обслуживании из базы данных Seagate. Она позволит оценить соотношение накопителей, возвращенных на втором и третьем году эксплуатации, и устройств, в которых возникли сбои в течение первого года. Однако такие данные имеются только за первые три года эксплуатации — именно на этот срок распространяется действие большинства гарантийных обязательств Seagate на накопители для настольных компьютеров. Правда, серьезным преимуществом этого подхода является то, что все данные относятся исключительно к продукции Seagate для настольных систем.
  • Можно принять так называемую «плоскую» модель, предполагающую, что после завершения первого года эксплуатации интенсивность отказов остается на постоянном уровне. Это означает, что во все годы после первого интенсивность отказов будет такой же, как и на втором году эксплуатации. Поскольку вероятность отказа со временем уменьшается, данный метод дает осторожную оценку средней наработки на отказ для всего срока эксплуатации.
Сравнение всех трех моделей приведено в таблице ниже.

 МОДЕЛЬ:
Weibull
По данным
гарантийного
обслуживания
(только по OEM)
»Плоская» модель
Год эксплу- атации
Суммарная продолжи- тельность включения
(час)
Интен-
сив-
ность отказов
за год
Суммар-
ная интенсив-
ность
отказов
Интен-
сив-
ность отказов
за год
Суммар- ная
интенсив-
ность отказов
Интен-
сив-
ность отказов
за год
Суммар- ная
интенсив-
ность отказов
1 2 400 1,20% 1,20% 1,20% 1,20% 1,20% 1,20%
2 4 800 0,55% 1,75% 0,78% 1,98% 0,55% 1,75%
3 7 200 0,43% 2,18% 0,39% 2,37% 0,55% 2,30%
4 9 600 0,37% 2,55%   0,55% 2,86%
5 12 000 0,33% 2,88%   0,55% 3,41%
6 14 400 0,30% 3,18%   0,55% 3,96%
7 16 800 0,28% 3,46%   0,55% 4,51%
8 19 200 0,26% 3,72%   0,55% 5,06%
9 21 600 0,24% 3,96%   0,55% 5,62%
10 24 000 0,23% 4,19%   0,55% 6,17%

Чтобы нагляднее продемонстрировать различия между моделями, мы приводим график суммарной относительной интенсивности отказов, построенный на основании каждой из них (время наработка на отказ для первого года эксплуатации принято равным 200 000 часов).

Легенда к графику «Суммарная годовая интенсивность отказов, рассчитанная по Weibull и «плоской» модели, в сравнении с данными гарантийного обслуживания»

Название вертикальной оси (между цифрами точки заменить на запятые) — Суммарная интенсивность отказов за год эксплуатации пользователем
Название горизонтальной оси — Год эксплуатации пользователем
Weibull analysis = Анализ по Weibull
«Flatline» model = «Плоская» модель
Model based... = Модель оценки по данным гарантийного обслуживания

Как видно из приведенного выше графика, «плоская» модель дает более осторожную оценку, чем «чистый» анализ по Weibull, и очень близка к оценке по данным гарантийного обслуживания Seagate за первые три года. Для простоты анализа, а также для того, чтобы получить более осторожные оценки, мы решили применять в своих расчетах «плоскую» модель.

При использовании «плоской» модели суммарные результаты отношения между наработкой на отказ за все время эксплуатации к этому параметру за первый год могут выглядеть следующим образом:

Средние значения за первые три года: 
Отказов в год: 0,768%
Наработка на отказ: 312 500 час
Прирост по сравнению с некорректированным  
значением наработки на отказ (232 140 час):
1,56
  
Средние значения за первые пять лет: 
Отказов в год: 0,682%
Наработка на отказ: 352 113 час
Прирост по сравнению с некорректированным  
значением наработки на отказ (232 140 час):
1,76
  
Средние значения за первые десять лет: 
Отказов в год: 0,617%
Наработка на отказ: 389 105 час
Прирост по сравнению с некорректированным  
значением наработки на отказ (232 140 час):
1,95

Проведенные расчеты показывают, что для оценки среднего времени наработки на отказ за три года эксплуатации дисковода нужно умножить исходный показатель за первый год (для той же продолжительности включения и окружающей температуры) на коэффициент 1,56. Аналогично можно рассчитать и среднее время наработки на отказ за пять и десять лет, умножив значение исходного параметра за первый год на 1,76 и 1,95 соответственно.

Окончательный расчет

На основе всех коэффициентов, рассчитанных выше, мы можем преобразовать наработку на отказ, указываемую фирмой Seagate (на первый год эксплуатации, при 2 400 рабочих часах в год и продолжительности включения 100%) в среднее время наработки на отказ для накопителя, установленного в устройстве конечного пользователя и работающего при конкретной окружающей температуре с определенной продолжительностью включения. После этого можно также оценить и среднее время наработки на отказ за все время службы накопителя.

Ниже приведен пример расчета среднего времени наработки на отказ в течение первого года и всего срока эксплуатации для накопителя, работающего в течение 2 400 часов в год при температуре 34°С, продолжительности включения 30% и рассчитанного на срок службы 5 лет.

Наработка на отказ за первый год: 232 140 час (на основе параметров бета и эта25 по Weibull)
 х 0,90 (температурный коэффициент для 38°С и продолжительности включения 30%)
Наработка на отказ за первый год в устройстве пользователя: 208 926 час 
Наработка на отказ в устройстве пользователя: 208 926 час 
 х 1,76 (коэффициент усреднения за пятилетний период)
Наработка на отказ за весь срок эксплуатации в устройстве пользователя: 367 710 час 

В качестве завершающего примера рассмотрим накопитель Seagate с одним жестким диском, для которого наработка на отказ в течение первого года составляет 444 000 час. Допустим, он установлен в бытовом электронном устройстве, используется 2 920 часов в год (8 часов в день, 7 дней в неделю) при окружающей температуре 42°С и продолжительности включения 5%.

Наработка на отказ за первый год: 444 000 час (на основе параметров бета и эта25 по Weibull)
 х 0,92(коррекция для 2 920 час/год)
 х 0,59(температурный коэффициент для 42°С и продолжительности включения 5%)
 х 1,95 (коэффициент усреднения за 10-летний период)
Наработка на отказ в устройстве пользователя  в течение первого года: 469 956 час

Заключение

Описанный выше метод позволяет использовать данные лабораторных испытаний Seagate для оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных приборах, которые работают в условиях «реального мира». Вкратце этот метод сводится к следующему:

  • С помощью анализа Weibull или статистических данных испытаний RDT/FRDT оцените параметры Weibull для лабораторных условий.
  • Используя методику WeiBayes, проанализируйте данные испытаний для конкретного типа накопителя; определите значения усредненной интенсивности отказов AFR за первый год и наработку на отказ при проведении испытаний RDT.
  • Откорректируйте полученные результаты с учетом отличия лабораторных условий RDT от реальной температуры и продолжительности включения, при которых будет работать накопителей, установленный в аппаратуре конечного пользователя.
  • Исходя из осторожного предположения, что после первого года эксплуатации интенсивность отказов останется постоянной, пролонгируйте оценку надежности за первый год на трех- и десятилетний срок службы накопителя.
В заключение отметим, что данный метод позволяет математически обоснованно применять результаты лабораторных испытаний Seagate для оценки надежности накопителей, установленных в бытовых электронных приборах.

 
Примечания:
1 SuperSmith, Fulton Findings, WinSMITH и WinSMITH Weibull являются зарегистрированными товарными знаками фирмы Fulton Findings (1251 W. Sepulveda Blvd., #800, Torrance, CA 90502, США).
2 Abernethy, Dr. Robert B., The New Weibull handbook, Second Edition, авторское издание, 1996, глава 5.
3 Abernethy, Dr. Robert B., The New Weibull handbook, Second Edition, авторское издание, 1996, приложение D.
4 Чтобы компенсировать неопределенность оценки параметров по Weibull из-за ограниченности времени работы дисководов, можно повысить доверительный уровень при проведении испытаний RDT.
5 Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, 1982.


По материалам Seagate Technology





Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.