데이터 엔지니어 이것저것

airflow parallelism 본문

오픈소스/airflow

airflow parallelism

pastime 2023. 10. 16. 21:47
728x90

airflow를 사용하다보면, 특정 task의 걸리는 시간이 많아 병렬처리를 위해 여러개의 TASK를 실행하는 경우가 많다.

하지만 그렇게 해도 너무 많은 시간이 걸려 동시에 동작하는 parallelism의 수가 기본값(32)을 넘는 경우

대기 상태에서 진행되지 않는다.

결국 원하는 시간에 원하는 결과물을 받지 못하는 결과를 만든다.

 

 

로컬에서 테스트 하기 위해 32개의 task를 실행하면 메모리가 부족하여 반대로 parallelism의 수를 2로 줄여서 테스트 진행

config:
  core:
    AIRFLOW__CORE__PARALLELISM: 2

 

정상적으로 입력된 것을 확인.

 

 

CeleryExecutor

정상적으로 2개만 실행하는 모습

다시 10으로 증가시킨후 동작

 

 

TODO

쿠버네티스의 경우 정상적으로 동작을 안해서 확인중

728x90

'오픈소스 > airflow' 카테고리의 다른 글

airflow with spark  (1) 2024.12.22
KubernetesPodOperator  (0) 2023.10.15
DockerOperator  (0) 2023.09.19
Airflow DAG간 종속성  (0) 2022.05.15
Airflow DAG 분리하기  (0) 2022.02.05