Упал контроллер домена на базе 2003 сервера. Примерно год глючил и наконец упал окончательно. Пока глючил, это было неприятно 🙁 Очень неприятно 🙁 Когда упал — стало совсем капец. Потому что в одну минуту перестали работать более 300 рабочих станций (с сидящими за ними людьми) и 30 серверов.
Ситуация довольно штатная, подобное случается сплошь и рядом, если бы не размеры сети и не требования по бесперерывной работе.
К счастью, оказалось, что есть резервная копия контроллера домера, сделанная около 3 месяцев назад. Она поднялась за 20 минут. Вот только возникли проблемы:
1. Домен перестал авторизовать компьютеры и серверы, потому что записи компьютеров устарели.
2. В домене были установлены пароли с максимальным сроком жизни 40 дней, так что практически у всех пользователей они уже устарели.
Первая проблема разрешалась довольно легко — нужно было зайти на пользовательский компьютер, зайти под учетной записью локального администратора, вывести компьютер из домена, ввести опять и перезагрузить. По ходу появились еще проблемы:
3. После перезагрузки один из серверов начал циклически перезагружаться, не доходя даже до графического режима работы. Это вылечилось очень легко и быстро загрузкой в режиме последней удачной конфигурации.
4. Еще один сервер не стал загружаться вообще. Встроенная в серверную платформу видеокарта просто ничего не показывала и система не стартовала. После переноса сервера из серверной в наш рабочий кабинет эта проблема странным образом пропала — сервер стал работать нормально. Простояв день, он был унесен обратно. Я считаю, что где-то окислились какие-то контакты, а при переноске нужные контакты восстановились. Иного объяснения не нахожу.
5. Еще на одном сервере упала система, причем всерьёз. Симптом дурацкий — в процессе загрузки стал постоянно вылетать «синий экран смерти» с надписью «irql not less or equal». После нескольких часов шаманства было принято решение установить систему заново.
6. На одной рабочей станции умер локальный профайл пользователя.
В остальном обновление учетных записей компьютеров прошло легко и непринужденно и заняло, в среднем, 3-4 минуты на рабочую станцию.
Пароли были частично заменены , частично народ смог вспомнить. Еще несколько человек были приняты на работу со времени создания резервной копии контроллера домена и их пришлось заводить заново.
Поскольку народу в «устранении последствий» участвовало много, само устранение не заняло более половины рабочего дня.
Во время устранения последствий восстановленный контроллер домена был так же перенесен в серверную, где включиться не захотел по причине умершего блока питания. Видимо, в его плохом качестве и крылись проблемы его нестабильной работы в последние полгода-год.
Еще повисал центральный маршрутизатор Cisco, но это уже совсем другая история…