Что такое Big Data Engineering?
Существует много определений, что такое Big Data Engineering, и все они касаются данных и манипуляций ими.
Это понятие объясняют как практики манипуляции большими данными, охватывающих построение инфраструктуры работы с данными, хранение данных, получение доступа к ним и их форматирование.
Отдельно задачи, в которых применяется Big Data Engineering выделили только недавно и поэтому не удивительно, что немало специалистов в ИТ-индустрии не слышали о Big Data Engineering.
Какие задачи решает Big Data Engineering?
Big Data Engineers могут работать в достаточно разнообразных сферах: финансы, туризм, реклама, безопасность, e-commerce. Проще говоря, над проектом или продуктом, который требует работы с данными больших объемов, скорости или разнообразия в структуре и формате.
Big Data Engineering выполняет такие технические задачи:
- Построение эффективных процессов конвейерной обработки данных (Data Pipelines).
Для разных видов данных используют различные инструменты, в Big Data часто работают со статическими или потоковыми типами данных. Для таких целей применяют фреймворки Apache Spark, Flink, Storm, Kafka и облачные сервисы AWS, Google Cloud, Azure.
- Хранение данных.
Для хранения могут служить как реляционные (PostgreSQL, MySQL, MsSQL, Oracle DB), так и нереляционные базы данных (Cassandra, MongoDB, Neo4j), и другие хранилища, как HDFS или облачные сервисы.
- Обработка данных.
Данные зачастую бывают различных форматов, поэтому для их использования в базах данных или других хранилищах, надо переводить данные в соответствующий структурированный формат. Такой тип обработки предусматривает изменение формата данных (если это необходимо), очистку данных, выявление аномалий. Наиболее распространенные типы данных в сфере Big Data — Parquet, Avro, Protobuf, CSV.
- Инфраструктура.
Big Data Engineers должны разворачивать созданные решения (Docker, Kubernetes), участвовать в настройке CI/CD (Jenkins, TeamCity), определить необходимое количество ресурсов для выполнения программ, строить механизмы сбора метрик и логирования (Prometheus, Grafana).
Основная проблема в работе связана с природой данных. Big Data имеет очень большой объем данных, высокую скорость потоковых данных, нестандартный формат, разнообразие данных, которые требуют специфической обработки.
Так что в итоге?
Сегодня Big Data Engineering является новой технологией, которая только набирает обороты в сфере ИТ. И, так как, сфера Big Data стремительно развивается, это открывает новые возможности для разработчиков освоить новую профессию или разработать новое ИТ-решение. Например, компания Captify, уже активно использует Big Data Engineering в своей работе и мы уверены, что к ряду таких компаний присоединятся и украинские.