воскресенье, 2 апреля 2017 г.

Решение проблемы с остановкой загрузки из-за RAID-контроллера Intel RS2WC040

Столкнулся с проблемой - один из серверов не загружался после аварийного отключения питания. К сожалению, снимки экрана в процессе загрузки не сохранились, поэтому я сейчас не могу сказать, что натолкнуло меня на мысль о том, что причина заключается в RAID-контроллере. Решил сравнить при помощи diff настройки контроллеров на проблемном сервере и на сервере, где такой проблемы не наблюдается. Для этого вывел настройки RAID-контроллеров при помощи такой команды:
# megacli -AdpAllInfo -aALL
Глаз зацепился только за одно различие, которое можно причислить собственно к настройкам контроллеров, а не к их свойствам:
< BIOS Error Handling            : Pause on Errors
---
> BIOS Error Handling            : Stop On Errors
Поискал в интернете и нашёл статью How to disable LSI MegaRAID SAS controller’s suspend boot on error “feature”

Посмотреть текущее значение этой настройки можно следующей командой:
# MegaCli -AdpBIOS -Dsply -aALL
На проблемном сервере эта команда выдавала следующее:
BIOS on Adapter 0 is Enabled.
    BIOS will Bypass error.
Auto select Boot on Adapter 0 is Disabled.

Exit Code: 0x00
На сервере без проблем эта команда выдавала следующее:
BIOS on Adapter 0 is Enabled.
    BIOS will Stop on error.
Auto select Boot on Adapter 0 is Disabled.

Exit Code: 0x00
Выставить значение Stop on error можно следующей командой:
# MegaCli -AdpBIOS -SOE -aALL
При последующих перезагрузках сервера больше такой проблемы не наблюдалось.

Комментариев нет: