Anton Sidorov homepage

Bookmark this to keep an eye on my project updates!

Follow me on GitHub

Большие данные Big data

Схемы

Зачем

  • преобразование неструктурированных данных для анализа и создания отчетов
  • архивные данные
  • построение единой отчетности (BI)

Плюсы-минусы

Критерии

Изоляция OLAP операций от OLTP Множество компонентов
  Безопасность
   

Паттерны

Технологии

  • Apache Hadoop не предназначен для анализа данных в режиме реального времени – это решение для хранения неструктурированных данных с возможностью анализа этих данных в будущем, что не соответствует требованиям компаний иметь возможность оперативного анализа данных для хранилищ данных.
  • HDFS, HBase, Hive, Pig, Spark, Storm, Oozie, Sqoop
  • Kafka
  • Big data
    • MapReduce, gfs, hadoop, clickhouse, splunk, vertica, netapp
  • Большие данные
  • Azure
  • https://docs.microsoft.com/ru-ru/azure/architecture/browse/
  • https://docs.microsoft.com/ru-ru/azure/architecture/patterns/
  • https://ru.wikipedia.org/wiki/%D0%A8%D0%B0%D0%B1%D0%BB%D0%BE%D0%BD_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F