Anton Sidorov homepage

Bookmark this to keep an eye on my project updates!

Follow me on GitHub

Data Lake Озеро данных

Data Lake Озеро данных

Зачем

Паттерн проектирования для хранилищ данных в архитектурном стиле BigData.

Для сбора, хранения и обработки больших потоков информации, которая поступает непрерывно:

Неструктурированные: Текстовые документы, медицинские данные, изображения и видео
Слабоструктурированные: Файлы в формате xml, edi, json и лог-файлы
Структурированные: Строки и столбцы реляционных БД, таблицы Excel

UC:

Омниканальный маркетинг
Цифровая цепочка поставок
Интернет вещей

vs хранилища данных

Область сравнения	Data Lake	Хранилище данных
Сбор данных	Данные любой структуры и из любых источников	Данные приведены к единому виду
Обработка данных	Осуществляется после сбора	Осуществляется перед сбором
Основные пользователи	Специалисты по глубокому анализу данных	Оперативные пользователи
Стоимость хранения	Ниже	Выше
Получение данных	Высокая скорость получения	Низкая скорость получения
Процесс загрузки данных	ELT	ETL

Плюсы-минусы

Плюсы:

Гибкие варианты использования
Совместное использование
Масштабирование
Высокая пропускная способность

Минусы:

качество данных ниже (может стать “болотом”)
- решается процессами поставки и политики управления данными. Это называется культурой работы с данными
Дополнительные затраты на извлечение данных
не требуется структурировать данные, поэтому их сложнее анализировать
- решается с помощью каталогизации и метаданных
требуется высокая квалификация кадров для поддержки, эксплуатации, разработки отчетов
- необходим план уничтожения данных

Технологии

Object Storage
- S3 Minio
Distributed File System DFS
- HDFS
- CFS
Data Vault
Kafka
Apache Hadoop
Apache Hive