Background
1 июня 2020

Что такое Big Data Engineering?

Существует много определений, что такое Big Data Engineering, и все они касаются данных и манипуляций ими.

Это понятие объясняют как практики манипуляции большими данными, охватывающих построение инфраструктуры работы с данными, хранение данных, получение доступа к ним и их форматирование. 

Отдельно задачи, в которых применяется Big Data Engineering выделили только недавно и поэтому не удивительно, что немало специалистов в ИТ-индустрии не слышали о Big Data Engineering.

 

Какие задачи решает Big Data Engineering?

 

Big Data Engineers могут работать в достаточно разнообразных сферах: финансы, туризм, реклама, безопасность, e-commerce. Проще говоря, над проектом или продуктом, который требует работы с данными больших объемов, скорости или разнообразия в структуре и формате.

Big Data Engineering выполняет такие технические задачи:

  • Построение эффективных процессов конвейерной обработки данных (Data Pipelines). 

Для разных видов данных используют различные инструменты, в Big Data часто работают со статическими или потоковыми типами данных. Для таких целей применяют фреймворки Apache Spark, Flink, Storm, Kafka и облачные сервисы AWS, Google Cloud, Azure.

  • Хранение данных. 

Для хранения могут служить как реляционные (PostgreSQL, MySQL, MsSQL, Oracle DB), так и нереляционные базы данных (Cassandra, MongoDB, Neo4j), и другие хранилища, как HDFS или облачные сервисы.

  
  • Обработка данных. 

Данные зачастую бывают различных форматов, поэтому для их использования в базах данных или других хранилищах, надо переводить данные в соответствующий структурированный формат. Такой тип обработки предусматривает изменение формата данных (если это необходимо), очистку данных, выявление аномалий. Наиболее распространенные типы данных в сфере Big Data — Parquet, Avro, Protobuf, CSV. 

  • Инфраструктура

Big Data Engineers должны разворачивать созданные решения (Docker, Kubernetes), участвовать в настройке CI/CD (Jenkins, TeamCity), определить необходимое количество ресурсов для выполнения программ, строить механизмы сбора метрик и логирования (Prometheus, Grafana).

Основная проблема в работе связана с природой данных. Big Data имеет очень большой объем данных, высокую скорость потоковых данных, нестандартный формат, разнообразие данных, которые требуют специфической обработки. 

 

Так что в итоге?

 

Сегодня Big Data Engineering является новой технологией, которая только набирает обороты в сфере ИТ. И, так как, сфера Big Data стремительно развивается, это открывает новые возможности для разработчиков освоить новую профессию или разработать новое ИТ-решение. Например, компания Captify, уже активно использует Big Data Engineering в своей работе и мы уверены, что к ряду таких компаний присоединятся и украинские.

044 223 8497

Кловский спуск 7

info@indevlab.com