Anton Sidorov homepage

Bookmark this to keep an eye on my project updates!

Follow me on GitHub

Data Lake Озеро данных

Зачем

Паттерн проектирования для хранилищ данных в архитектурном стиле BigData.

Для сбора, хранения и обработки больших потоков информации, которая поступает непрерывно:

  • Неструктурированные: Текстовые документы, медицинские данные, изображения и видео
  • Слабоструктурированные: Файлы в формате xml, edi, json и лог-файлы
  • Структурированные: Строки и столбцы реляционных БД, таблицы Excel

UC:

vs хранилища данных

Область сравнения Data Lake Хранилище данных
Сбор данных Данные любой структуры и из любых источников Данные приведены к единому виду
Обработка данных Осуществляется после сбора Осуществляется перед сбором
Основные пользователи Специалисты по глубокому анализу данных Оперативные пользователи
Стоимость хранения Ниже Выше
Получение данных Высокая скорость получения Низкая скорость получения
Процесс загрузки данных ELT ETL

Плюсы-минусы

Плюсы:

  • Гибкие варианты использования
  • Совместное использование
  • Масштабирование
  • Высокая пропускная способность

Минусы:

  • качество данных ниже (может стать “болотом”)
    • решается процессами поставки и политики управления данными. Это называется культурой работы с данными
  • Дополнительные затраты на извлечение данных
  • не требуется структурировать данные, поэтому их сложнее анализировать
    • решается с помощью каталогизации и метаданных
  • требуется высокая квалификация кадров для поддержки, эксплуатации, разработки отчетов
    • необходим план уничтожения данных

Технологии