Anton Sidorov homepage

Bookmark this to keep an eye on my project updates!

Follow me on GitHub

Большие данные Big data

Зачем

Архитектурный стиль.

  • крупные массивы информации, которые помогают принимать обоснованные решения основанные на данных (data-driven)
  • стек специальных распределенных технологий для работы с информацией

UC:

  • преобразование неструктурированных данных для анализа и создания отчетов
  • архивные данные
  • построение единой отчетности (BI)
  • ML

vs хранилища данных

  • Характеристики данных обрабатываемых
    • Volume объем >150гб\д
      • Velocity скорость обработки
      • Variety разнообразие типов данных
      • Veracity достоверность
      • Variability изменчимовсть
      • Value ценность для бизнеса
  • Data Lake
  • Алгоритмы параллельной распределенной обработки данных
    • Distributed Processing Frameworks
    • MPP архитектура обработки данных
  • Распределенное хранение данных (DFS)
  • Распределённая структура - управлять данными и анализировать их можно с помощью множества сервисов

Плюсы-минусы

Критерии

Плюсы

  • Совместное использование
  • Высокая пропускная способность
  • Разнородность типов данных
  • Скорость сбора, обработки, анализа данных
  • Большие объемы хранилищ (более 150 Гб)

Минусы

  • Множество компонентов
  • Безопасность
  • Высокие затраты
  • Трудности с масштабированием

Функции

Этапы:

  • Сбор данных
    • Реплики
    • CDC
    • ETL
    • Очистка данных Data Cleaning
  • Хранение: DWH, Data Lake
  • Обработка: Пакетная, RealTime
  • Анализ: BI, OLAP, ML

Паттерны

arch

TODO:

Технологии

  • Сбор
    • Streaming
      • Kafka
      • Центры событий Azure
      • Центры Интернета вещей Azure
    • CDC: Debezium
  • Хранение
  • Обработка
    • Apache Hadoop: Hive, Pig, Map Reduce
    • Apache Spark
    • Azure Data Lake Analytics
    • Azure Stream Analytics
  • Оркестратор
    • фабрика данных Azure
    • Apache Oozie shedule Job Spark
    • Apache Sqoop shedule Job ETL
    • Apache Airflow создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных
  • Анализ
    • Apache Spark
    • Apache Hive
    • HBase
    • ClickHouse
    • Splunk - платформа для сбора, хранения, обработки и анализа машинных данных, то есть логов
    • Vertica - платформа продвинутой аналитики и машинного обучения с возможностью масштабирования и работы с различными источниками данных
    • BI
      • MS Power BI
      • Google Biq Query
      • Yandex Data Lens
    • OLAP
      • Azure Analysis Services
    • ML
      • Apache Mahout

Deployment