Anton Sidorov homepage

Bookmark this to keep an eye on my project updates!

Follow me on GitHub

Отказоустойчивость Fault tolerance

Зачем

Отказоустойчивость — это способность системы продолжать полноценно работать при выходе из строя отдельных компонентов — серверов или каналов связи, сбоев на уровне отдельных модулей системы и т.д.

  • CAP теорема - концепции распределённости — расщепление распределённой системы на несколько изолированных секций не приводит к некорректности отклика от каждой из секций:
    • согласованность (consistency)
    • доступность (availability)
    • устойчивость к разделению (англ. partition tolerance)
    • Вы хотите консистентность или доступность в случае инцидента?

Факторы риска

  • Сбой электропитания
  • Сбои Сервера, ос
  • Ошибки софта
  • Выход из строя канала интернет
  • умышленное или случайное изменение данных в базе данных
  • Ddos атаки
  • Некорректная обработка ошибок

Паттерны

Методы инфраструктуры, физической архитектуры

Методы разработки

Design for failure