Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- UI for kafka
- 크롤링
- numpartitions
- Python
- dbt_project
- CDC
- ksql
- Materializations
- airflow
- docker
- 윈도우
- 도커
- spring boot
- polars
- spark
- 쿠버네티스
- k9s
- 모바일
- 파이썬
- mysql
- DBT
- proerty
- 카프카
- 동적 차트
- bar cahrt
- KubernetesPodOperator
- Java
- kafka
- query history
- freshness
Archives
- Today
- Total
데이터 엔지니어 이것저것
airflow parallelism 본문
728x90
airflow를 사용하다보면, 특정 task의 걸리는 시간이 많아 병렬처리를 위해 여러개의 TASK를 실행하는 경우가 많다.
하지만 그렇게 해도 너무 많은 시간이 걸려 동시에 동작하는 parallelism의 수가 기본값(32)을 넘는 경우
대기 상태에서 진행되지 않는다.
결국 원하는 시간에 원하는 결과물을 받지 못하는 결과를 만든다.
로컬에서 테스트 하기 위해 32개의 task를 실행하면 메모리가 부족하여 반대로 parallelism의 수를 2로 줄여서 테스트 진행
config:
core:
AIRFLOW__CORE__PARALLELISM: 2
CeleryExecutor
정상적으로 2개만 실행하는 모습
다시 10으로 증가시킨후 동작
TODO
쿠버네티스의 경우 정상적으로 동작을 안해서 확인중
728x90
'오픈소스 > airflow' 카테고리의 다른 글
airflow with spark (1) | 2024.12.22 |
---|---|
KubernetesPodOperator (0) | 2023.10.15 |
DockerOperator (0) | 2023.09.19 |
Airflow DAG간 종속성 (0) | 2022.05.15 |
Airflow DAG 분리하기 (0) | 2022.02.05 |