Background
1 Червня 2020

Що таке Big Data Engineering?

Існує багато визначень, що таке Big Data Engineering, і всі вони стосуються даних і маніпуляцій над ними.

Це поняття пояснюють як практики маніпуляції над великими даними, що охоплюють побудову інфраструктури роботи з даними, зберігання даних, одержання доступу до них та їх форматування. 

Окремо задачі, в яких застосовується Big Data Engineering виділили лише недавно і тому не дивно, що чимало фахівців в ІТ-індустрії не чули про Big Data Engineering.

 

Які завдання вирішує Big Data Engineering?

 

Big Data Engineers можуть працювати в досить різноманітних сферах: фінанси, туризм, реклама, безпека, e-commerce. Простіше кажучи, над проектом або продуктом, який вимагає роботи з даними великих обсягів, швидкості або різноманіття структури та формату.

Big Data Engineering виконує такі технічні завдання:

  • Побудова ефективних процесів конвеєрної обробки даних (Data Pipelines). 

Для різних видів даних використовують різні інструменти, в Big Data часто працюють зі статичними або потоковими типами даних. Для таких цілей застосовують фреймворки Apache Spark, Flink, Storm, Kafka і хмарні сервіси AWS, Google Cloud, Azure.

  • Зберігання даних. 

Для зберігання можуть служити як реляційні (PostgreSQL, MySQL, MsSQL, Oracle DB), так і нереляційні бази даних (Cassandra, MongoDB, Neo4j), та інші сховища, як HDFS або хмарні сервіси.

  • Обробка даних. 

Дані часто бувають різних форматів, тому для їх використання в базах даних або інших сховищах, треба переводити дані у відповідний структурований формат. Такий тип обробки передбачає зміну формату даних (якщо це необхідно), очищення даних, виявлення аномалій. Найбільш поширені типи даних у сфері Big Data — Parquet, Avro, Protobuf, CSV. 

  • Інфраструктура

Big Data Engineers повинні розгортати створені рішення (Docker, Kubernetes), брати участь в налаштуванні CI/CD (Jenkins, TeamCity), визначити необхідну кількість ресурсів для виконання програм, будувати механізми збору метрик і логування (Prometheus, Grafana).

Оскільки у Big Data є дуже велика кількість даних, швидкісна потокова передача даних, нестандартний розмір та інші функції, то робота з такими даними вимагає спеціальних навичок.

 

Так що в підсумку?

 

Сьогодні Big Data Engineering є новою технологією, яка тільки набирає обертів у сфері ІТ. І, оскільки, сфера Big Data стрімко розвивається, це відкриває нові можливості для розробників освоїти нову професію або розробити нове ІТ-рішення. Наприклад, компанія Captify, вже активно використовує Big Data Engineering у своїй роботі і ми впевнені, що до ряду таких компаній приєднаються і українські.

044 223 8497

Кловський узвіз, 7

info@indevlab.com