Ошибка в чипсетах Intel 6-й серии


Суть проблемы, кто виноват, что делать и чем это нам грозит?

Как показывает практика, люди (даже самые разумные представители этого биологического вида) испытывают огромное удовольствие, когда видят, как кто-то из их собратьев звонко плюхается в лужу. Недаром в комедийном жанре так популярны герои Чарли Чаплина и Роуэна Аткинсона, которые не пытаются шутить (да и вообще не говорят ни слова), а просто делают глупости на протяжении всего фильма (кстати — персонажи Аткинсона, «проработанные»  чуть глубже, чем мистер Бин, большой популярности среди зрителей пока снискать не сумели). Если же неприятности происходят не с простым человеком, а с кем-то известным, или, того паче, крупной корпорацией, тут уж дело не ограничивается простой и даже бурной радостью — появляются и иные эмоции, вплоть до злорадства.

Еще, как показывает практика, людям свойственно преувеличивать проблемы, нередко раздувая из мухи слона. В одиночку этим заниматься сложно, однако развитие телекоммуникаций в последние десятилетия позволяет набрать критическую массу любителей ужасов в виде сообщества, где каждый пугает прочих, подпитывая свой страх тем, что рассказывают они. Иногда дело доходит до настоящей паники…

Все эти мысли пришли в голову вашему покорному слуге не случайно — просто наблюдение за тем, как забурлил интернет после того, как на днях компания Intel заявила, что последнее поколение чипсетов работает, мягко говоря, не совсем правильно, так что наилучшим вариантом будет все отгруженные микросхемы забрать обратно и поменять на новые. Конечно, «забурлил» лишь относительно небольшой сегмент сети (большинству нормальных людей куда ближе и понятнее информация о том, что где-то в мире из-за снегопадов образовалась пробка на 20 километров, чем какие-то нюансы работы каких-то непонятных микросхем), но, собственно говоря, мы с вами в этом сегменте и находимся :) А если кому слова насчет паники кажутся преувеличением, так приведу простой пример: буквально на днях наблюдал в нашей Конференции вопрос от владельца ноутбука с чипсетом H55M (очевидно, к этой истории не относящимся никак), сводившийся к банальному — «куда бежать и как спасаться».

Дабы не уподобляться некоторым гражданам, а также помочь с этим нашим читателям, мы собрали доступную информацию в сети и не только. Поскольку многим любопытна позиция компании Intel из первых, так сказать, уст, а не в перепевке новостника с маленького сайта, творчески осмыслившего информацию от новостника крупного сайта, который перевел материал своего коллеги с зарубежного сайта, написанный им на базе общения с человеком, который лично видел другого человека, который присутствовал при разговоре двух неизвестных, один из которых что-то слышал… В общем, цепочка понятная :) Мы решили в ней не участвовать, а задать несколько вопросов напрямую Михаилу Рыбакову — директору пресс-службы корпорации Intel в России и странах СНГ. По телефону, поскольку не одни мы такие — жаждущие информации из первоисточников, так что на приятные беседы за чашечкой кофе ни у Михаила, ни у его коллег, сейчас, очевидно, времени просто нет. И вот что у нас получилось.

Суть проблемы

Как многие наверняка знают лучше нас, современные чипы состоят из сотен тысяч и миллионов транзисторов. В центральных процессорах их количество достигло уже миллиарда, чипсеты, разумеется, «скромнее», однако вполне сравнимы по сложности с выпускавшимися несколько лет назад процессорами. Поскольку размер самих микросхем не увеличивается вот уже давно (на самом деле, даже уменьшается при возможности — это позволяет снизить себестоимость), достигается все более высокая степень интеграции простым способом — переходом на все более тонкие нормы производства. По сути своей, современные электронные технологии давно уже без излишнего пафоса стали нанотехнологиями.

На этом пути есть и некоторые проблемы, которые не волновали производителей всего лет 15 назад. А вот семь лет назад — уже волновали. После выхода на рынок процессоров Pentium 4 на ядре Prescott (первенце технологии 90 нм) широкие массы трудящихся впервые узнали о «токах утечки». В первом приближении — это тогда, когда электроны начинаю вести себя некорректно, игнорируя все правила поведения электрического тока и нарушая, тем самым, принципы функционирования полупроводниковых приборов, типа транзисторов. Например, вместо передвижения по заботливо проложенным проводникам, «пробивают» слой диэлектрика и уходят… Да куда угодно! Или аналогичным образом приходят откуда угодно. В результате транзисторы самопроизвольно переключаются, так что вся машинная логика превращается в нечеткую :) Справиться с этим эффектом можно, однако удалось это инженерам не сразу, да и не сказать, чтоб малой кровью. В частности, энергопотребление Prescott (в том виде, в каком он стал работоспособным) оказалось более высоким, чем прогнозировалось, достичь запланированных тактовых частот не удалось, а в конечном итоге вообще было принято решение, что сама по себе архитектура NetBurst зашла в тупик, и от нее отказались.

Что мы имеем в лице чипсетов P67 и H67? Изготавливаются они по нормам 65 нм: в точности, как предшественники, да и вообще этот техпроцесс давно отлажен компанией (процессоры дошли уже до 32 нм). Однако вот с точки зрения функциональности и «производительности» (насколько данный термин применим к чипсетам) эти микросхемы существенно отличаются от «пятой серии». И немудрено: к последней у многих пользователей имелась справедливая претензия по скорости работы интерфейса PCI Express — всего 250 МБ/с на линию, что соответствует первой версии этого стандарта. Кроме того, на сегодняшний день уже потихоньку начинает становиться актуальной поддержка SATA600 для накопителей. В общем, новые чипсеты — действительно новые, в отличие от предыдущих: P55 был уж больно похож на южный мост ICH10R предыдущих серий чипсетов ;) Но сделать большой объем работы совсем без ошибок достаточно сложно, так что в «шестой серии» таковой нашлось место.

В чем она заключается? В общем-то, суть проблемы как раз в том, о чем говорилось парой абзацев выше. Для одного из транзисторов токи утечки оказались более высокими, чем планировалось. А произошло это потому, что слой диэлектрика оказался слишком тонким для выбранного напряжения. Ну, или напряжение оказалось слишком высоким для данного дизайна чипа :) В общем-то, не совсем понятно, кто именно ошибся, да и вообще — подобные ошибки, наверняка, у всех производителей встречаются куда чаще, чем нам об этом сообщают, однако в данной ситуации Intel «не повезло». Проблемный транзистор расположен в цепи тактового генератора, обеспечивающего функционирование портов SATA300 (коих в этих чипсетах четыре штуки), что в определенных условиях может приводить к ошибкам синхронизации контроллера, которые, в свою очередь, будут вызывать ошибки чтения и записи данных. В «хороших» (относительно, конечно) случаях это приведет к падению производительности подключенных дисковых устройств (данные будут читаться/писаться по нескольку раз, в ожидании подтверждения успеха), в «плохих» может, в общем-то, вызвать и порчу данных. Не обязательно приведет и не обязательно вызовет, но вероятность этого отличается от нуля.

Речь идет не о логической ошибке в топологии кристалла (дорожка прервана, выведена не туда и пр.), а о потенциальной проблеме, проявляюшейся со временем, в результате износа. Ошибка первого рода выявляется моментально по изготовлении первой пластины с кристаллами: микросхему прогоняют через набор логических тестов. Как выявить ошибку второго рода? Все производители используют для этого более или менее одинаковые механизмы «ускоренного старения». Ту же микросхему (точнее, обязательно партию микросхем) подвергают воздействию повышенных температур (в термокамере) и напряжений, моделируя продолжительный износ. Существуют достаточно строгие математические модели, позволяющие по статистическим результатам повреждений, полученных в ходе такого тестирования микросхемами, предсказать среднее время их наработки на отказ. Именно с таким прогнозом Intel мы и имеем здесь дело (далее обсудим конкретные проценты и сроки). Нужно лишь понимать, что это оценка статистическая, а не фактическая — попросту, на рынке еще нет систем на новых чипсетах, проработавших три года, чтобы говорить о конкретных фактах брака.

Ну а поскольку хранимая на компьютере информация чаще всего стоит в разы больше, чем сам компьютер (если это не что-нибудь купленное исключительно для игр или подобного несерьезного убийства времени), в компании приняли нелегкое решение не доводить ситуацию до появления реальных проблем. Тем более, как это часто бывает с неприятностями, эта может случиться не сразу: сначала все будет работать, как планировалось, однако со временем микросхема немного деградирует под нагрузкой (опять же — не обязательно, но вероятность этого, по мнению Intel, отлична от нуля), после чего все и начнется. В общем, поскольку по одному из законов Мерфи всякая неприятность, которая может случиться, обязательно случится (в дополнении к этому закону вообще сказано, что неприятность, которая не может случиться, все равно случится), пришлось заняться поисками решения.

Метод решения проблемы — рецепт Intel

Итак, что было решено сделать в компании, чтобы не доводить ситуацию до крайностей? Во-первых, в Intel ошибку совершенно официально признали и о ней объявили. На самом деле, это очень серьезный, болезненный, но необходимый шаг. С одной стороны, безусловно, он нанес немалый удар по репутации и позволил некоторым позлорадствовать, с другой… А что еще можно было сделать? Проблема существует, и никуда от этого не деться. Серьезная или не очень, но, по крайней мере, пользователи предупреждены. Что, кстати, сильно не похоже на поведение некоторых производителей (не будем сейчас называть их по именам), которые в подобных ситуациях не так давно до последнего делали вид, что все идет по плану, и признавали ошибки лишь тогда, когда под давлением обстоятельств (и разъяренных покупателей) делать хорошую мину при плохой игре становилось просто невозможно.

Но одного лишь признания ошибки, естественно, мало. Intel экстренными темпами разработала исправленную версию чипов, отгрузка которой производителям материнских плат начнется уже в этом месяце. В первую очередь будут заменены все имеющиеся у последних запасы чипсетов (они уже отозваны со складов), а уже «израсходованные» на производство плат, скорее всего, будут авансом заменены в марте. Т. е., на примере: некто купил у Intel миллион чипсетов к данному моменту. Товарные остатки на 31 января составили 500 тысяч, а еще 500 тысяч попали в готовую продукцию, разошедшуюся по дистрибуторам. В рамках программы по замене Intel поменяет весь миллион проданных микросхем, не дожидаясь, пока вторая половина вернется к нему — чтобы производитель смог не только возобновить поставки системных плат (уже на обновленной ревизии чипов) в полном объеме, но и в течение месяца-двух накопить определенный «обменный фонд» для изымания из продажи уже отгруженной продукции.

Что касается материнских плат производства самой компании Intel, то она полностью берет на себя расходы по их замене на новые. Иными словами, наличие «сбойной» ревизии чипсета будет являться достаточным условием наступления гарантийного случая — неважно, столкнется пользователь с какими-либо проблемами на практике или нет. К сожалению, пока в точности не известно — как поведут себя все остальные производители. Иными словами — будут они отзывать уже проданную продукцию или предпочтут производить замену «в рабочем порядке», и только если пользователь сумеет доказать, что он на самом деле столкнулся с проблемами? Тем более неизвестно, какой будет ситуация в розничных магазинах. Особенно в нашей стране. Однако это уже, по вполне понятным причинам, от Intel не зависит. Свою часть работы компания сделала. Точнее, начала делать: чипсеты с ошибками более не поставляются, их запасы изымаются у производителей, программа замены ограничений по срокам не имеет.

В целом полностью исправить ситуацию планируется в апреле, хотя нам очень осторожно дали понять, что у компании есть основания рассчитывать на некоторое опережение графика. По оценкам самой Intel, ущерб не превысит 700 миллионов долларов. Впрочем, некоторые аналитики склонны говорить о бо́льших цифрах — по их мнению, прямые (затраты на редизайн чипов, остановка и перезапуск производства, замена чипсетов производителям конечной продукции) и косвенные (репутационные издержки, задержка распространения новой платформы) убытки корпорации составят не менее миллиарда долларов. Сумма серьезная и достаточно болезненная даже для Intel. Однако в прошлом году чистая прибыль компании каждый месяц примерно равнялась тому са́мому миллиарду, а в этом останавливаться на достигнутом никто не собирался. Свои финансовые ожидания в Intel несколько скорректировали в сторону уменьшения, но не слишком радикально.

Так ли страшен черт, как его малюют?

Попробуем взглянуть на существование проблемы с другой стороны. Нет, безусловно, мы не будем пытаться отрицать факт того, что дело серьезное — этого и в Intel никто не делает. Но все же, есть ли причины для паники? Иными словами, насколько оно серьезное?

Компания утверждает, что ошибка локализована в одном конкретном тактовом генераторе, который отвечает за функционирование четырех SATA-портов и ничего другого. Если дело обстоит именно таким образом, то достаточно вспомнить, что в чипсетах этой злополучной серии всего портов шесть, причем два из них соответствуют третьей версии спецификации SATA и используют свой тактовый генератор. Исключением являются лишь (ультра)бюджетные модификации, типа В65 или Н61, однако их поставки еще толком не начинались, так что из рассмотрения их можно исключить. Таким образом, при использовании не более чем двух накопителей проблемы точно можно избежать — достаточно подключать их к портам SATA600. В целом большинство компьютеров ныне (да и всегда) продается всего с одним винчестером, а накопитель на оптических дисках становится уже опциональным оборудованием. Покупателям же ноутбуков, скорее всего, вообще не о чем беспокоиться. Если, конечно, речь не идет о моделях с двумя винчестерами и оптикой или одним винчестером, оптикой и портом eSATA — тут уже возможны проблемы (хотя eSATA никто не заставляет использовать, благо в современных моделях ему есть не такая и плохая альтернатива — в виде USB 3.0). Также возможны они в десктопах, где установка нескольких накопителей временами практикуется.

Но «возможны» еще не означает «будут обязательно». Будет «пробой» или нет — во многом зависит не только от того, будут ли порты использоваться, но и от того, как они будут использоваться. Тут мы, конечно, вступаем в область предположений, однако… Есть основания считать, что эпизодическое использование потенциально «дефектных» портов, например, для привода DVD-RW или нерегулярного подключения внешнего винчестера с интерфейсом eSATA вряд ли вызовет деградацию чипа. Тем более, что если использовать его только для чтения информации, то даже появление обещанных проблем не окажется критичным. И даже в «нагруженной» системе не факт, что произойдет что-то плохое, а если и произойдет — то не факт, что быстро. Наиболее пессимистичные прогнозы из опубликованных в сети говорят о том, что проблемам будет подвержено не более 15% компьютеров в течение трех лет. Подчеркнем: это самые худшие оценки. И речь идет не о 15% всех компьютеров на базе этих чипсетов, а лишь о 15% тех, в которых данная неприятность в принципе может случиться. Из сказанного выше вытекает, что таковых не очень много — максимум, процентов 20. Т. е. в конечном итоге речь может идти о процентах, а то и долях процентов от того, что продано. А тогда надо учитывать определенную вероятность, что с системной платой пользователю придется расстаться и по причинам, не связанным с этой злосчастной ошибкой — просто сгорит (и такое в этой жизни бывает) или чего-нибудь новенького захочется, причем вероятность этого больше, чем столкнуться с проблемами с дисковым контроллером :)

Подытоживая, проблема может коснуться не всех. Причем некоторым просто «повезет», а у большинства пользователей вообще нет шансов с ней столкнуться. В «группу риска» попадают только те, кто не довольствуется простыми массовыми решениями, а по желанию (или необходимости) использует одновременно большое количество накопителей, т. е. часть тех, кого принято именовать энтузиастами. По иронии судьбы, именно они и составляли основную массу первых покупателей LGA1155 — остальные либо просто не торопились, либо еще не дождались «народных» процессоров, выпуск которых был запланирован на конец февраля (Core i3) или вообще на второй квартал этого года (Pentium). Но даже в указанной группе любители запихивать в один несчастный компьютер по четыре-пять дисков и гонять их в режиме 24/7 составляют далеко не большинство. Из этого, разумеется, не следует, что стоит махнуть на все рукой и ни о чем не беспокоиться: вероятность потерять данные есть. Не у всех они ценные, да и вероятность не так уж и велика, однако к проблеме, как нам кажется, стоит относиться серьезно. Но мир не рухнет, да и вообще — конец света запланирован на 2012 год, и ошибки в компьютерной технике персонального назначения вряд ли способны его приблизить :)

Как с этим жить простому пользователю?

С вопросом «Кто виноват?» все примерно понятно, осталось ответить на более важный: «Что делать?» Что будет делать Intel, мы уже знаем. Как поведут себя производители системных плат и готовых систем — в точности не известно. Все-таки информация начала распространяться только позавчера (по непубличным каналам, скорее всего, чуть раньше, но вряд ли намного раньше), так что есть подозрения, что не все из них пока успели выработать позицию, пригодную для выхода с ней на публику. Но в ближайшие дни наверняка появятся официальные пресс-релизы о том, как кто будет решать проблему — тут уж к гадалке не ходи.

Уже после написания статьи (но до ее публикации) удалось ознакомиться с позицией Gigabyte. В первом приближении она сводится к тому, что озвучила Intel. Т. е. отгрузка плат с LGA1155 прекращена, поставки будут возобновлены, как только компания получит достаточное количество исправленных чипсетов, а все уже купившие одну из плат производства Gigabyte могут рассчитывать на замену без каких-либо дополнительных условий. Но для замены придется подождать конца апреля. Причем для этого не обязательно сидеть и дожидаться момента, когда обновленный аналог купленной платы появится у продавца: если в конце апреля его у последнего еще не будет, достаточно сообщить серийный номер продукта и ждать уведомления. Как поведут себя остальные производители, пока в точности не известно, но, скорее всего, точно также, как Intel и Gigabyte.

А что делать нам, простым покупателям? Точный ответ зависит от того, в какую группу кто попал. Проще всего тем, кто приобретение компьютера на платформе LGA1155 не планировал: им можно запастись попкорном, занять место поудобнее и смотреть, как будут выкручиваться гранды индустрии. Сложнее всего тем немногим, кто новую систему уже купил. В их случае есть несколько вариантов развития событий, но ни один из них не является простым и безболезненным. Придется следить за новостями, дабы выяснить: получится поменять плату или нет? Как нам кажется, при наличии возможности это стоит сделать — зачем лишний раз рисковать? Ну и потом, даже если все сложится удачно в течение всего срока эксплуатации компьютера, вряд ли позднее удастся продать за разумные деньги плату «плохой» серии.

Но независимо от того, как будут развиваться события, на время (для кого-то пара месяцев, для кого-то, к сожалению, больший срок) стоит учесть сказанное выше по поводу «проблемных» и «беспроблемных» блоков. Т. е. при наличии всего двух накопителей — подключить их к портам SATA600 (если это еще не сделано). При большем количестве — воспользоваться дополнительными дисковыми контроллерами, если они есть на плате, пусть даже это приведет к некоторым потерям производительности. Как бы то ни было, но диски с важной информацией не стоит подключать к портам с номерами от второго по пятый. Поскольку даже если пессимисты окажутся посрамлены, и потерять данные удастся лишь 0,01% пользователей, будет крайне обидно попасть в эти самые 0,01% (и, кстати, как показывает практика, попавших в проблемную группу никогда не утешает ее малочисленность и не радует ее многочисленность). И, разумеется, ни в коем случае нельзя пренебрегать резервным копированием. Впрочем, это относится к разряду вечных ценностей и актуально независимо от ситуации на рынке.

Ну а тех, кто планировал приобрести компьютер с Sandy Bridge, мы не будем отговаривать от этого решения, однако порекомендуем немного подождать. В конце концов, до появления обновленных плат осталось не так уж и много времени, торопиться не стоит. Если же купить (или модернизировать) компьютер необходимо прямо сейчас, то на рынке есть достаточное количество альтернативных вариантов — как из ассортимента Intel, так и… Скажем так — совсем альтернативных :) Их всех указанная проблема, повторимся, не касается. Может быть, есть какие-то свои, но эта конкретная может проявляться (а может и не появляться) исключительно в системах с процессорами семейства Sandy Bridge, т. е. Core i5 и i7 «семейства 2000». У вас любой другой процессор или вы планировали приобрести любой другой процессор? Значит, не волнуйтесь — вся эта буря в стакане воды к вам вообще никак не относится.

А для любителей немного рискнуть некоторые магазины (к сожалению, расположенные далеко от России), кстати, предлагают любопытный аттракцион: «купи плату с LGA1155 сейчас и бесплатно поменяй ее на исправленный аналог, когда таковой станет доступным». Словом, мы склонны предполагать, что все кончится хорошо. Если не для всех, то уж для подавляющего большинства покупателей точно. Пусть и не сразу.

Итого

Каждому из нас хотелось бы жить в идеальном мире, где все продукты безупречны и имеют неограниченный ресурс. К сожалению, реальный мир далек от идеала, так что в нем случаются ошибки. Во всех областях человеческой деятельности, не исключая и микроэлектронику. К счастью, сталкиваться с серьезными проблемами приходится не так уж часто — чаще всего производителям удается «отловить» их еще до выпуска продукта на рынок. Но не всегда, причем от этого никто не застрахован. Достаточно вспомнить приснопамятный TLB-баг в первых процессорах AMD Phenom (кстати, проявлялся он не так уж часто, как о том раструбила народная молва; другой вопрос, что процессоры и без учета этой проблемы оказались несколько менее удачными, чем хотелось бы) или из совсем свежего — проблему с первыми SATA600-контроллерами Marvell (когда производителям всего-то полтора года назад пришлось в экстренном порядке переделывать топовые платы под LGA1156 непосредственно перед анонсом платформы).

Свои «скелеты в шкафу» были уже и у Intel.  Наиболее известный — первые процессоры Pentium содержали ошибку в арифметическом сопроцессоре. Кстати, так и осталось непонятным, насколько велика была вероятность столкнуться с ней на практике, и вполне возможно, что компания попросту перестраховалась, отозвав их все с рынка и заменив на новые. И вот теперь проблема с чипсетами. К счастью, замеченная достаточно рано — продажи новой платформы начались всего месяц назад, так что теперь требуется заменить примерно восемь миллионов чипов. Могло бы быть и хуже — например, проблема вскрылась бы где-нибудь в третьем-четвертом квартале этого года, когда счет поставленных систем исчислялся бы десятками миллионов и нашлись бы уже первые пострадавшие (пусть даже 1%, но 1% от 10 миллионов — это сто тысяч). Могло бы быть и лучше — если бы чипсеты изначально не имели дефектов. Однако давно известно, что не ошибается только тот, кто ничего не делает. Просто компания Intel «делает» больше других, так что и возможностей ошибиться у нее больше.

К чести разработчиков, этими «возможностями» они пользуются крайне редко. За последний год на рынок было выпущено много чипов (разошедшихся по свету многомиллионными тиражами), в том числе и такие сложные, как процессорные кристаллы Clarkdale, Gulftown, Bekton и Sandy Bridge, к которым нареканий нет. В одном семействе «вспомогательных» микросхем обнаружилась небольшая ошибка — бывает. Осадок, безусловно, остался, однако не стоит уподобляться герою известной советской комедии, утверждавшему, что «все пропало — гипс снимают, клиент уезжает». В конечном итоге, как нам кажется, все проблемы сведутся к тому, что производители заработают немного меньше, чем планировали, темпы экспансии LGA1155 окажутся чуть более низкими, чем хотелось бы, а некоторые пользователи немного поволнуются. И всё.




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.