Інтеграція PySpark Streaming з AWS EMR та Step Functions для обробки великих даних в реальному часі

Authors

  • Богдан Красько SoftServe
  • Петро Грицюк

DOI:

https://doi.org/10.31713/MCIT.2025.039

Keywords:

AWS, PySpark, BigData

Abstract

У статті розглядається інтеграція PySpark Streaming з AWS EMR та Step Functions для обробки великих даних в реальному часі. Описано рішення двох ключових проблем, що виникають при запуску та оновленні потокових обробок даних: забезпечення безперервної роботи стрім-джоб без downtime і автоматичне оновлення версій PySpark Streaming jobs. Для вирішення цих завдань пропонується використання AWS Step Functions для оркестрації запуску і зупинки джоб, а також S3 Bucket для визначення лідера, що гарантує запуск тільки однієї активної джоби. Окрім того, у статті розглянуто механізм автоматичного перезапуску джоб у разі помилок та створення подій для оновлення версій завдань. Такий підхід дозволяє забезпечити безперервну і масштабовану обробку потокових даних, мінімізуючи ризики downtime та забезпечуючи автоматизацію процесів на всіх етапах.
This article examines the integration of PySpark Streaming with AWS EMR and Step Functions for real-time big data processing. It describes solutions to two key challenges that arise when running and updating streaming data jobs: ensuring continuous execution of streaming jobs without downtime and enabling automatic version updates of PySpark Streaming jobs. To address these challenges, the article proposes using AWS Step Functions to orchestrate job start and stop operations, as well as an S3 bucket to determine the leader, ensuring that only one active job runs at a time. Additionally, the article discusses mechanisms for automatically restarting jobs in case of failures and generating events to trigger job version updates. This approach enables continuous and scalable streaming data processing while minimizing downtime risks and automating processes across all stages.

Downloads

Published

2025-11-06

How to Cite

Красько, Б., & Грицюк, П. (2025). Інтеграція PySpark Streaming з AWS EMR та Step Functions для обробки великих даних в реальному часі. Modeling, Control and Information Technologies: Proceedings of International Scientific and Practical Conference, (8), 133–134. https://doi.org/10.31713/MCIT.2025.039