Распределённая файловая система DFS (Distributed File System)
Зачем
Решения для файловых систем.
- предоставления прозрачного доступа к хранилищам данных (как удаленный жёсткий диск), общие папки (монтирование папок на клиенте), управляемые распределенной файловой системой
- партнеров по репликации для отказоустойчивости
- имеют высокую устойчивость к сбоям и спроектированы для работы на железе с низкой стоимостью
Плюсы-минусы
Плюсы:
- ** Performance - спроектированы для быстрого последовательного чтения/записи, прекрасны для пакетной обработки (MapReduce). Для операций со случайным чтением/записью рекомендуется использовать NoSQL БД (например HBase поверх HDFS)
- *** Scalability - масштабируется линейно, теоретически кол-во узлов не ограничено, существуют боевые реализации на 10000+ узлов
- *** Availability - репликация на три узла по-умолчанию, отсутствие единой точки отказа
Протоколы
- Облако
- Object Storage аля Amazon S3
- NFS
- Под unix\win
- Active Directory по протоколу Kerberos для NFSv4
- Common internet file system (CIFS) на базе SMB
- SMB
- сервер\клиент Samba под unix
- Кластерная система (Cluster) содержит несколько серверов в общей сети
- Gfs2
- Что выбрать по производительности и надежности?
Безопасность
Технологии
- Open source
- HDFS (Hadoop Distributed File System)
- CFS (Cassandra File System) дают высокую пропускную способность при доступе к данным приложения и подходят для обработки больших наборов данных