> > > > Проблема 16 бит: некоторые HPE SAS SSD выходят из строя через 32.768 часа

Проблема 16 бит: некоторые HPE SAS SSD выходят из строя через 32.768 часа

Опубликовано:

hpeВ документе поддержки HPE приведено критически важное обновление прошивки для SAS SSD, поскольку со старой прошивкой через 32.768 часа работы все данные на накопителе будут потеряны. Причина в счетчике, который имеет длину 16 бит. Собственно, он и отвечает за рабочие часы. 216 как раз соответствует 65.536 значениям, если вычесть отрицательные числа, останется 32.768 часа. Что соответствует 3 годам, 270 дням и 8 часам работы.

"Neglecting to update to SSD Firmware Version HPD8 will result in drive failure and data loss at 32,768 hours of operation and require restoration of data from backup in non-fault tolerance, such as RAID 0 and in fault tolerance RAID mode if more drives fail than what is supported by the fault tolerance RAID mode logical drive."

Но это еще не все:

"After the SSD failure occurs, neither the SSD nor the data can be recovered. In addition, SSDs which were put into service at the same time will likely fail nearly simultaneously."

То есть по достижению 32.768 часов все данные накопителей будут потеряны, причем безвозвратно, если администратор не позаботился о резервировании. Причем в данном случае HPE снимает с себя ответственность - пользователи обязаны установить новые прошивки на SSD, иначе они продолжат работать со старыми прошивками на свой страх и риск.

"By disregarding this notification and not performing the recommended resolution, the customer accepts the risk of incurring future related errors."

Проблема наблюдается на следующих системах хранения HPE: HPE ProLiant, Synergy, Apollo, JBOD D3xxx, D6xxx, D8xxx, MSA и StoreVirtual 3200. Текущее время работы SSD можно считать через Smart Storage Administrator (SSA). Прошивка HPD8 уже доступна для упомянутых SSD и систем хранения. Дополнительную информацию можно получить в документе Customer Bulletin. Не совсем понятно, продолжат ли работать SSD после 32.768 часов. Вполне вероятно полное прекращение работы, а не только потеря данных.

Почему HPE пропустила столь серьезную ошибку с 16-битным счетчиком - неизвестно. Возможно, причина кроется в размере прошивки или памяти ROM, в которую записывается прошивка. Что несколько напоминает проблемы с маленьким BIOS ROM на материнских платах Ryzen и EPYC, из-за которых новые процессоры уже не поддерживались. Производителям материнских плат пришлось выпускать почти идентичные версии 2.0 или предлагать два варианта BIOS для разных процессоров.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).