Що таке Big Data Engineering?
Це поняття пояснюють як практики маніпуляції над великими даними, що охоплюють побудову інфраструктури роботи з даними, зберігання даних, одержання доступу до них та їх форматування.
Окремо задачі, в яких застосовується Big Data Engineering виділили лише недавно і тому не дивно, що чимало фахівців в ІТ-індустрії не чули про Big Data Engineering.
Які завдання вирішує Big Data Engineering?
Big Data Engineers можуть працювати в досить різноманітних сферах: фінанси, туризм, реклама, безпека, e-commerce. Простіше кажучи, над проектом або продуктом, який вимагає роботи з даними великих обсягів, швидкості або різноманіття структури та формату.
Big Data Engineering виконує такі технічні завдання:
- Побудова ефективних процесів конвеєрної обробки даних (Data Pipelines).
Для різних видів даних використовують різні інструменти, в Big Data часто працюють зі статичними або потоковими типами даних. Для таких цілей застосовують фреймворки Apache Spark, Flink, Storm, Kafka і хмарні сервіси AWS, Google Cloud, Azure.
- Зберігання даних.
Для зберігання можуть служити як реляційні (PostgreSQL, MySQL, MsSQL, Oracle DB), так і нереляційні бази даних (Cassandra, MongoDB, Neo4j), та інші сховища, як HDFS або хмарні сервіси.
- Обробка даних.
Дані часто бувають різних форматів, тому для їх використання в базах даних або інших сховищах, треба переводити дані у відповідний структурований формат. Такий тип обробки передбачає зміну формату даних (якщо це необхідно), очищення даних, виявлення аномалій. Найбільш поширені типи даних у сфері Big Data — Parquet, Avro, Protobuf, CSV.
- Інфраструктура.
Big Data Engineers повинні розгортати створені рішення (Docker, Kubernetes), брати участь в налаштуванні CI/CD (Jenkins, TeamCity), визначити необхідну кількість ресурсів для виконання програм, будувати механізми збору метрик і логування (Prometheus, Grafana).
Оскільки у Big Data є дуже велика кількість даних, швидкісна потокова передача даних, нестандартний розмір та інші функції, то робота з такими даними вимагає спеціальних навичок.
Так що в підсумку?
Сьогодні Big Data Engineering є новою технологією, яка тільки набирає обертів у сфері ІТ. І, оскільки, сфера Big Data стрімко розвивається, це відкриває нові можливості для розробників освоїти нову професію або розробити нове ІТ-рішення. Наприклад, компанія Captify, вже активно використовує Big Data Engineering у своїй роботі і ми впевнені, що до ряду таких компаній приєднаються і українські.