Anton Sidorov homepage

Bookmark this to keep an eye on my project updates!

Follow me on GitHub

Отказоустойчивость Fault tolerance

Зачем

Отказоустойчивость — это способность системы продолжать полноценно работать при выходе из строя отдельных компонентов — серверов или каналов связи, сбоев на уровне отдельных модулей системы и т.д.

  • CAP теорема - концепции распределённости — расщепление распределённой системы на несколько изолированных секций не приводит к некорректности отклика от каждой из секций:
    • согласованность (consistency)
    • доступность (availability)
    • устойчивость к разделению (англ. partition tolerance)
    • Вы хотите консистентность или доступность в случае инцидента?

Факторы риска

  • Инфраструктурные
    • Сбой электропитания
    • Сбои Сервера, ОС
    • Выход из строя канала интернет
  • Программные
  • Безопасность
    • Умышленное или случайное изменение данных в базе данных
    • Ddos атаки

Паттерны

Методы инфраструктуры, физической архитектуры

Методы разработки (программные)

Design for failure

Метрики

TODO