Data Lake Озеро данных
Зачем
Паттерн проектирования для хранилищ данных в архитектурном стиле BigData.
Для сбора, хранения и обработки больших потоков информации, которая поступает непрерывно:
- Неструктурированные: Текстовые документы, медицинские данные, изображения и видео
- Слабоструктурированные: Файлы в формате xml, edi, json и лог-файлы
- Структурированные: Строки и столбцы реляционных БД, таблицы Excel
UC:
- Омниканальный маркетинг
- Цифровая цепочка поставок
- Интернет вещей
vs хранилища данных
Область сравнения | Data Lake | Хранилище данных |
---|---|---|
Сбор данных | Данные любой структуры и из любых источников | Данные приведены к единому виду |
Обработка данных | Осуществляется после сбора | Осуществляется перед сбором |
Основные пользователи | Специалисты по глубокому анализу данных | Оперативные пользователи |
Стоимость хранения | Ниже | Выше |
Получение данных | Высокая скорость получения | Низкая скорость получения |
Процесс загрузки данных | ELT | ETL |
Плюсы-минусы
Плюсы:
- Гибкие варианты использования
- Совместное использование
- Масштабирование
- Высокая пропускная способность
Минусы:
- качество данных ниже (может стать “болотом”)
- решается процессами поставки и политики управления данными. Это называется культурой работы с данными
- Дополнительные затраты на извлечение данных
- не требуется структурировать данные, поэтому их сложнее анализировать
- решается с помощью каталогизации и метаданных
- требуется высокая квалификация кадров для поддержки, эксплуатации, разработки отчетов
- необходим план уничтожения данных
Технологии
- Object Storage
- S3 Minio
- Distributed File System DFS
- HDFS
- CFS
- Data Vault
- Kafka
- Apache Hadoop
- Apache Hive