Хроника событий
Началось с софтовых проблем:
Возникли ошибки при обновлении системы. Не хотела обновляться glibc. В результате перестали запускаться почти все программы. День я пытался через единственную живую ssh сессию оживить систему, но не получилось. Пришлось ехать на место и разбираться с проблемами.
Аппаратные проблемы:
Приехав в МИЭМ я обнаружил что сервер вообще не грузится, вываливаются ошибки работы с дисковой подсистемой (ошибки чтения, ошибки общения с дисками, причем сразу на всех sata каналах). Как при попытке загрузки ОС, так и при попытке загрузки с liveDVD При отключении части дисков с raid контролллера проблемы почти исчезали, только раз появились сообщения об ошибках. SMART говаорит, что диски исправны.
Также напомню, что у нас уже возникала подобная плавающая ошибка, когда самопроизвольно падал и поднимался линк на сетевой карте (решилось установкой PCI карточк). Причем система тогда отказывалась включаться и проблема решилась магическими перестановками карт в PCI слотах и прочими шаманствами. Что конкретно заставило систему загрузиться тогда так и не поняли. А т.к. проблема не повторялась, про нее забыли.
Времени разбирать сервер у меня уже не было, пришлось закончить и ехать на работу.
Аппаратные проблемы день второй:
В МИЭМ поехал Денис Сумин. Сервер был извлечен из стойки и были предприняты попытки переключать диски на встроенный контроллер, отключать разные диски, пробовал вставлять другой sata контроллер.
Еще попробовали заменять старую PCI видеокарту на PCI-Express карточку от nvidia, которая служила мне верой и правдой, пока у меня не появился огромный монитор, родное разрешение которого она не поддерживает. Теперь ей нашли применение и она будет в сервере.
Также на материнской плате были обнаружены вздутые конденсаторы (что скорее всего и является причиной ошибки). В результате решили сервер увезти домой, а нам обещали сделать виртуалку, пока не починим сервер.
День третий:
С утра заработала виртуалка, мы ее донастроили, положили куда надо файлы и запустили сервисы... И поностальгировали. Когда я настраивал сервер я на отдельный раздел сделал полную копию системы. И Денис наткунлася на этот раздел раньше, чем на рабочий корневой раздел, и скопировал файлы оттуда. В результате сервисы восстановились на состояние 2008 года.
День четвертый:
Диски и контроллер у меня. Остальное железо у Дениса.К компьютеру подключен наш promise ST4 и к нему подключен наш RAID5 из 3х 750 гиговых винтов, остальные (2х80 и один на 400) подключены к материнке. Все работает стабильно, никаких ошибок. RAID массив пришлось пересобирать (во время сбоев на сервере один из дисков рассинхронизовался), что он успешно делает уже несколько часов и сейчас процесс прошел на 80%. так что стресс-тестирование дисковой системы можно считать состоявшимся.
Планы
Скорее всего у нас накрылась материнка, поэтому придется обновлято сервер. Ставить новую мать, оперативку и процессор. Более точно скажем, когда закончим тестировать то железо, что у нас есть.
Про программный сбой
Касательно того, что у нас произошло с операционкой... Могй сказать одно. Когда сервер окончательно вышел у меня из-под контроля bash отказывался что-либо запускать мотивируя это тем, что не может выделить память для fork. А до этого, после обновления glibc (когда система сломалась), программы не стартовали т.к. не могли найти символ guard_ (такио ошибки лезут, когда нарушается бинарная совместимость). Сейчас я сделал chroot в корневой раздел нашего сервера и все работвет. Так что возможно, что это тоже был аппаратный, а не программный сбой. На всякий случай я сделаю полную пересборку мира (это аналогично переустановке системы с сохранением конфигурационных файлов). Пересборка мира потребует пары дней т.к. сегодня я ее не закончу, а продолжить смогу только во вторник утром.
Что работает
Форум запущен на виртуалке в полном объеме. drupal... считайте, что он в read only. Мы решили не переносить ldap, так что drupal не работает аутиентификация. Галерею я не стал копировать, она слишком большая.
Личные сайты я могу восстановить по просьбе владельцев. Если просьбы нет, тона виртуалку они не переносятся (и восстановятся, когда починим сервер)
ftp на виртуалке поднимать не будем.
Обновить сервер, я надеюсь, получится в течении недели. Надо окончательно разобраться, что из железа у нас рабочее и понять, что нам еще нужно.
Железо
Жесткие диски:3 X western digital WD7500AAKS по 750 GB. Объединены в RAID5 на 1.5 TB в порядке
2 X Seagate Barracuda ST380815AS по 80 GB. Объединены в RAID0. На них стоит ОС в порядке*
1 X Seagate Barracuda по 400 GB. в порядке*
Баракудам у меня жарковато и у них (у всех, включая одну мою) по смарту Raw_Read_Error_Rate и Seek_Error_Rate высокие (которые у всех WD нулевые). Но SMART говорит, что все в норме. Я думаю, что это особенности вычисления этих значений у разных производителей.
Платы расширения:
Promise SATA 300 TX4. На 4 sata порта. в порядке
Видеокарта PCI. Кажется ATI rage в утиль?
GigaByte GeForce 6600 GT с пассивным охлаждением в порядке
Остальное:
Процессор. AMD Athlon 62. Кажется 2000+. ?
Материнка Biostar NF4 Ultra-A9A вздуто 3 конденсатора
Память DDR II 333 4GB (4x1GB) Одна плашка битая и с ней система не грузится. Остальные вроде в порядке
Корпус в порядке
DVD привод в порядке
Блок питания Delta Electronics GPS-650AB как проверить?