KVM с настройкой отработки отказа

У нас есть сервер с несколькими виртуальными машинами, использующими KVM. Хотя это работает хорошо, мы обеспокоены возможными сбоями оборудования на одном физическом сервере.

Мы выполняем резервное копирование каждую ночь на другой физический сервер, но восстановление резервных копий занимает некоторое время. Если вся система заработает, у нас будет несколько часов простоя.

Нам нужна система аварийного переключения (то есть другой физический сервер), на которую мы можем переключиться, если в какой-то момент произойдет сбой основного сервера.

У меня есть несколько вопросов по этому поводу:

  • Как сделать так, чтобы система аварийного переключения стала основной? Это должны быть разные физические машины, чтобы мы могли убедиться, что один сбой оборудования не убивает все. Есть ли программное обеспечение для чего-то вроде RAID 1 по сети? Это как-то связано с балансировкой нагрузки?
  • Как бы мы отправляли запросы на отказоустойчивый компьютер, если основной не отвечает? Должны ли мы регулярно пинговать его и обновлять информацию DNS, если он не отвечает вовремя?
  • Было бы здорово иметь что-то, что работало бы на уровне виртуальной машины, то есть, если одна виртуальная машина не работает, запросы к ней должны быть перенаправлены в копию в отказоустойчивой системе.

1 ответ

Решение

Одним из лучших решений для вашего сценария является DRBD+Heartbeat. DRBD реплицирует диск / разделы /LVs между серверами в режиме реального времени. Это не рекомендуется для серверов с большим количеством операций ввода-вывода, но очень хорошо работает для малых и средних предприятий.

Документация очень хорошая, посмотрите на сайте. Есть раздел под названием "Приложения с поддержкой DRBD" с примерами и готовыми решениями. Вы можете использовать "Использование Xen с DRBD" в качестве основы, адаптируя его к KVM.

У меня есть несколько серверов с этим решением и работает отлично.

Другие вопросы по тегам