Функции оповещений и дежурств Opsgenie теперь доступны в Jira Service Management и Compass. Перенесите существующие данные и конфигурации Opsgenie до 05.04.2027 с помощью нашего инструмента автоматической миграции.
Как разработать план аварийного восстановления данных за семь шагов
Основные моменты
Планы аварийного восстановления помогают свести к минимуму потерю данных и время простоя после таких инцидентов, как стихийные бедствия и кибератаки.
Целевой срок восстановления (RTO) и целевая точка восстановления (RPO) — это ключевые показатели, отражающие то, насколько успешен план аварийного восстановления.
Простая система из семи этапов облегчает создание эффективного плана восстановления, адаптированного к потребностям вашей организации.
Jira Service Management и Statuspage упрощают аварийное восстановление и помогают поддерживать прозрачную коммуникацию с клиентами и заинтересованными лицами.
Подготовка к кибератакам, сбоям оборудования и другим подобным инцидентам помогает свести ущерб к минимуму. С планом аварийного восстановления данных вы будете готовы к любым нештатным ситуациям.
В плане аварийного восстановления данных описано, как будут восстанавливаться инфраструктура и данные после инцидента. Это ключевая составляющая управления непрерывностью обслуживания. Узнайте, как разработать план аварийного восстановления данных, чтобы свести к минимуму время простоя и реагировать на любые сбои быстро и эффективно.
Попробуйте Service Collection Free, чтобы узнать, как разработать и внедрить план аварийного восстановления с помощью Jira Service Management из этой подборки.
Что такое аварийное восстановление?
Аварийное восстановление — это набор планов, процессов и технологий, которые организация использует для восстановления ИТ-систем, данных и критически важных операций после происшествия, такого как кибератака, сбой оборудования или стихийное бедствие.
Цель состоит в том, чтобы сократить время простоя, ограничить потерю данных и помочь организации восстановиться как можно быстрее. И если аварийное восстановление делает акцент на том, чтобы возобновить функционирование ИТ-служб и инфраструктуры, то планирование непрерывной работы бизнеса позволяет шире взглянуть на то, как компания может продолжать свою деятельность во время и после сбоя.
Как работает аварийное восстановление?
Чтобы приступить к созданию плана аварийного восстановления, определите критически важные системы, целевой срок восстановления (RTO) и целевую точку восстановления (RPO), выберите стратегии восстановления, а также отрепетируйте готовые сценарии, описанные в сборниках, чтобы оптимизировать управление инцидентами.
Такие инструменты, как Jira Service Management (JSM), позволяют координировать процессы работы с инцидентами и задачи по восстановлению, что упрощает управление инцидентами. А в Statuspage клиенты и заинтересованные лица могут просматривать обновления в режиме реального времени, что способствует эффективному информированию об инцидентах.
Какие угрозы и сбои можно преодолеть с помощью процедуры аварийного восстановления?
Каждый тип аварийных ситуаций, связанных с данными, отличается набором сложностей и последствий. Понимание этих типов — первый шаг к разработке эффективного плана восстановления.
Стихийные бедствия. Природные явления, такие как землетрясения, наводнения, ураганы и пожары, могут нанести физический ущерб ИТ-инфраструктуре.
Кибератаки. Вредоносные действия и компоненты, такие как программы-вымогатели, фишинг и взлом, ставят под угрозу безопасность данных.
Аппаратные сбои. Неисправности или поломки физических компонентов, таких как серверы, устройства хранения и сетевое оборудование, могут повлиять на деятельность компании.
Программные ошибки. Неисправности программного обеспечения, например баги, отказы или сбои, могут нарушить работу.
Человеческие ошибки. Ошибки сотрудников, такие как случайное удаление или неправильная конфигурация данных, могут поставить под угрозу целостность информации.
Как создать план аварийного восстановления за семь шагов
Разработка плана аварийного восстановления — это ключевая составляющая практики непрерывного совершенствования. Используя метод, состоящий из семи шагов, можно перейти от документации к эксплуатационной готовности. Каждый шаг следует задокументировать, протестировать и интегрировать в рабочие процессы управления ИТ-услугами (ITSM) с помощью таких инструментов, как JSM.
Шаг 1. Определите, что следует понимать под аварийной ситуацией и кто должен о ней объявлять
Прежде всего необходимо установить четкие критерии, позволяющие отличить настоящую аварийную ситуацию от серьезного инцидента, который требует соответствующих мер. Для этого создайте простое дерево принятия решений, помогающее определить ситуацию как аварийную, и привяжите его к пороговым значениям RTO и RPO.
Быстрое выявление аварий и запуск сценариев из заранее разработанного сборника помогают минимизировать ущерб, поэтому очень важно знать четкие критерии того, что считать аварией.
Шаг 2. Проведите оценку рисков для выявления угроз
Следующий шаг — проведение оценки рисков для выявления потенциальных угроз. При выявлении потенциальных угроз учитывайте опасности, связанные с инфраструктурой, приложениями, поставщиками и рисками безопасности.
Оценивать угрозы следует по вероятности возникновения и серьезности последствий — так вы сможете легко определить, каким из них уделить внимание в первую очередь. Угрозы с серьезными последствиями и высокой вероятностью представляют больший риск для организации — отдайте им приоритет перед угрозами с незначительными последствиями или низкой вероятностью.
Шаг 3. Проанализируйте влияние угроз на бизнес и определите приоритетные объекты для восстановления
После того как разработан четкий алгоритм определения аварийной ситуации и выявлены потенциальные угрозы для организации, можно провести анализ их влияния, чтобы понять, какие объекты необходимо восстановить в первую очередь для минимизации последствий аварии.
Определите критически важные бизнес-функции и сопоставьте их с поддерживающими системами в вашей организации. Затем определите RTO и RPO для каждой системы с помощью стандартизированной таблицы-шаблона. Это станет ориентиром, по которому вы сможете оценить эффективность плана аварийного восстановления.
Придумайте уровни и распределите по ним системы в зависимости от приоритета. Например, уровень 1 должен включать в себя критически важные системы, а к уровню 2 можно отнести системы, значение которых для организации не так велико. Уровни помогают определить последовательность восстановления и распределить ресурсы так, чтобы важнейшие системы и данные были восстановлены как можно быстрее. Для упрощения процесса можно использовать таблицу-шаблон с показателями RTO и RPO.
Шаг 4. Выберите стратегию восстановления, подходящую для вашей ситуации
На этом шаге вы начинаете разрабатывать стратегию восстановления с учетом потребностей и возможностей своей организации. Необходимо выбрать один из следующих вариантов.
Резервное копирование и восстановление. Эта стратегия подразумевает создание копий данных в определенные моменты. В результате вы будете располагать историей деловых операций и другими данными за продолжительный период в прошлом. Резервные копии — это относительно недорогой способ предотвратить потерю данных, который также нужен для соблюдения нормативных требований.
Репликация. Репликация подразумевает копирование и перемещение данных между сайтами. Она может быть синхронной, асинхронной или почти синхронной. Стратегия с использованием репликации помогает сократить RTO и максимально повысить доступность, но стоит дороже.
Также нужно выбрать между «горячими», «теплыми» и «холодными» сайтами.
«Горячие» сайты — это полностью функциональные копии, которые обеспечивают минимальное время восстановления, но и обходятся дороже других вариантов, поскольку требуют полного дублирования инфраструктуры.
«Теплые» сайты — это предварительно настроенные сайты, которые требуют выполнения некоторых задач вручную, например установки программного обеспечения. Такие сайты помогают достичь баланса между экономической эффективностью и временем восстановления за счет того, что некоторые действия выполняются вручную.
«Холодные» сайты — это самый экономичный вариант, так как они требуют минимального технического обслуживания в перспективе. Однако у холодных сайтов самое длительное время восстановления, поскольку для их запуска и работы требуется больше всего настроек.
Шаг 5. Задокументируйте перечни процедур по восстановлению и храните их централизованно
Когда происходит инцидент, перечни процедур играют ключевую роль в ускорении аварийного восстановления и минимизации времени простоя. Создайте понятные пошаговые руководства для каждой критически важной системы и включите в них инструкции по активации, процедуры аварийного переключения и проверки соответствия, а также сведения о владельцах.
Вы можете хранить эти перечни процедур и управлять ими в централизованной рабочей области, а также подключать их напрямую к инцидентам в JSM и рабочим процессам изменений, чтобы ускорить доступ во время восстановления.
Шаг 6. Настройте рабочие процессы коммуникации для согласованной работы команд
Коммуникация имеет решающее значение при выполнении аварийного восстановления, поэтому рекомендуется наладить четкие рабочие процессы обмена информацией. Определите, при каких обстоятельствах следует начинать внутренние и внешние коммуникации, как часто информировать заинтересованных лиц и каковы требования к уведомлению регулирующих органов. Это поможет держать всех ключевых сотрудников организации в курсе событий.
Управляйте внутренней координацией и видимостью задач для всех команд с помощью JSM, а для информирования клиентов и заинтересованных лиц используйте Statuspage, чтобы в реальном времени публиковать информацию об активных инцидентах.
Этап 7. Тестируйте, измеряйте и улучшайте планы, чтобы повысить их эффективность
Изучение примеров планов аварийного восстановления поможет вам разработать собственный план, а регулярное тестирование — лучший способ повысить его эффективность. Запланируйте разбор моделируемых аварийных ситуаций раз в квартал, тесты с частичным аварийным переключением на резервный ресурс — раз в полгода и полное моделирование — раз в год, чтобы проверить действенность стратегии на практике. Также следует предусмотреть повторное тестирование сразу после серьезных изменений в инфраструктуре.
Отслеживайте ключевые показатели, такие как фактическое время восстановления в сравнении с целевым (RTO), фактическая потеря данных в сравнении с допустимой (RPO) и среднее время восстановления (MTTR). Проводите разборы инцидентов, чтобы постоянно совершенствовать перечни процедур и рабочие процессы.
Стратегии аварийного восстановления данных, о которых полезно знать
Для поддержания непрерывной работы бизнеса существуют различные стратегии аварийного восстановления данных. Вот несколько примеров.
Резервное копирование и восстановление. Регулярно создавайте резервные копии данных для аварийного восстановления и восстанавливайте их при необходимости.
Облачное аварийное восстановление. Благодаря облачным сервисам восстановление можно сделать гибким и масштабируемым.
Практики DevOps. Интегрируйте аварийное восстановление в конвейер DevOps, чтобы автоматизировать и ускорить процесс.
Решения высокой доступности. Внедряйте системы, поддерживающие непрерывную работу даже во время сбоев.
Реагирование на инциденты. В четко определенном плане реагирования изложите шаги по обнаружению, анализу, локализации и устранению инцидентов кибербезопасности.
Резервирование. Внедряйте резервные системы и компоненты для предотвращения общих отказов из-за отдельных компонентов.
Репликация. Дублируйте данные и системы во вторичном хранилище, чтобы быстро восстановить их.
Виртуализация. Используйте виртуальные машины для быстрого восстановления ИТ-сервисов.
Помимо вышеперечисленного, можно повысить эффективность и результативность аварийного восстановления, включив в стратегию методы управления ИТ-услугами (ITSM). ПО для ITSM позволяет управлять процессом и оптимизировать его, обеспечивая полное и беспрепятственное аварийное восстановление.
От плана аварийного восстановления к эксплуатационной готовности
Создание плана аварийного восстановления — это лишь первый этап. Когда план будет готов, его необходимо ввести в действие. Для этого нужно встроить план в ежедневные рабочие процессы, автоматизировать эскалации и привести показатели восстановления, такие как RTO и RPO, в соответствие с целями уровня обслуживания.
Jira Service Management упрощает реагирование на инциденты по заданной схеме и координацию восстановительных работ, а Statuspage позволяет легко поддерживать прозрачную коммуникацию с клиентами и заинтересованными лицами. Можно даже использовать коллекцию шаблонов Jira Service Management, чтобы упростить и унифицировать свой план аварийного восстановления.
Присоединяйтесь к демонстрации Jira в прямом эфире c сессией вопросов и ответов, чтобы узнать больше о том, как Jira может помочь в создании эффективного плана аварийного восстановления.
Рекомендовано для вас
Обучающее руководство
Изучайте информирование об инцидентах с помощью Statuspage
В этом руководстве мы покажем, как использовать шаблоны инцидентов, чтобы наладить эффективную коммуникацию во время разрешения инцидента. Применимо ко многим видам технических сбоев.
Шаблоны и примеры информирования об инцидентах
Во время реагирования на инциденты становится ясна ценность шаблонов информирования. Загрузите шаблоны, которые использует наша команда, и познакомьтесь с другими примерами распространенных инцидентов.
Подробнее об управлении инцидентами
В этом разделе можно найти другие руководства и ресурсы по управлению инцидентами.