Большие данные Big data
Зачем
- крупные массивы информации, которые помогают принимать обоснованные решения основанные на данных (data-driven)
- стек специальных распределенных технологий для работы с информацией
UC:
- преобразование неструктурированных данных для анализа и создания отчетов
- архивные данные
- построение единой отчетности (BI)
- ML
vs хранилища данных
- Характеристики данных обрабатываемых
- Volume объем >150гб\д
- Velocity скорость обработки
- Variety разнообразие типов данных
- Veracity достоверность
- Variability изменчимовсть
- Value ценность для бизнеса
- Volume объем >150гб\д
- Data Lake
- Алгоритмы параллельной распределенной обработки данных
- Distributed Processing Frameworks
- MPP архитектура обработки данных
- Распределенное хранение данных (DFS)
- Распределённая структура - управлять данными и анализировать их можно с помощью множества сервисов
Плюсы-минусы
Плюсы
- Совместное использование
- Высокая пропускная способность
- Разнородность типов данных
- Скорость сбора, обработки, анализа данных
- Большие объемы хранилищ (более 150 Гб)
Минусы
- Множество компонентов
- Безопасность
- Высокие затраты
- Трудности с масштабированием
Функции
- Сбор данных
- Реплики
- CDC
- ETL
- Очистка данных Data Cleaning
- Хранение: DWH, Data Lake
- Обработка: Пакетная, RealTime
- Анализ: BI, OLAP, ML
Паттерны
- Architecture Reference
- Сбор
- Хранение
- Distributed Storage Systems
- структурированные данные в DWH
- РСУБД Хранилища данных
- Data Vault - одна из моделей хранилища Data Warehouse с временными отметками размещения данных
- слабо структурированные
- Озеро данных Data Lake
- хранит любые типы данных
- данные в хранилище поступают непрерывно в реальном времени
- Обработка
- Distributed Processing Frameworks
- MapReduce
- Spark
- Massive Parallel Processing (MPP) архитектура
- Distributed Processing Frameworks
- Оркестратор Big Data Orchestration Tools
- Анализ
- Системы отчетности
- BI
- OLAP
- ML
- Системы отчетности
TODO:
Технологии
- Сбор
- Streaming
- Kafka
- Центры событий Azure
- Центры Интернета вещей Azure
- CDC: Debezium
- Streaming
- Хранение
- Distributed Storage Systems: HDFS, GFS, CFS
- структурированные Structured
- MSSQL, PGSQL
- Data Vault: Yandex Data Lens
- слабо структурированные Semi structured
- Data Lake
- Apache Hive
- Apache Hadoop
- Kafka
- Azure Data Lake Store
- Обработка
- Apache Hadoop: Hive, Pig, Map Reduce
- Apache Spark
- Azure Data Lake Analytics
- Azure Stream Analytics
- Оркестратор
- фабрика данных Azure
- Apache Oozie shedule Job Spark
- Apache Sqoop shedule Job ETL
- Apache Airflow создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных
- Анализ
- Apache Spark
- Apache Hive
- HBase
- ClickHouse
- Splunk - платформа для сбора, хранения, обработки и анализа машинных данных, то есть логов
- Vertica - платформа продвинутой аналитики и машинного обучения с возможностью масштабирования и работы с различными источниками данных
- BI
- MS Power BI
- Google Biq Query
- Yandex Data Lens
- OLAP
- Azure Analysis Services
- ML
- Apache Mahout