Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- dbt_project
- KubernetesPodOperator
- proerty
- CDC
- polars
- 모바일
- kafka
- k9s
- airflow
- mysql
- UI for kafka
- Materializations
- DBT
- 파이썬
- 윈도우
- freshness
- ksql
- Java
- spark
- bar cahrt
- spring boot
- docker
- 크롤링
- 동적 차트
- 카프카
- numpartitions
- 쿠버네티스
- Python
- query history
- 도커
Archives
- Today
- Total
목록polars (1)
데이터 엔지니어 이것저것

PolarsPandas와 같은 기존의 데이터 처리 라이브러리가 가진 성능적 한계를 극복하기 위해 탄생Rust 기반으로, 멀티스레딩과 병렬 처리를 지원, 대규모 데이터셋을 보다 빠르고 효율적으로 처리할 수 있도록 설계 요약 : Spark를 사용하기엔 데이터가 작고, Pandas로 돌리기엔 데이터가 많을때 좋다 속도 배경기존 Pandas를 대체하기 위한 도구 탐색 평소에는 문제 없이 동작을 잘하지만, 대용량 업데이트 시, OOM이 발생.이를 해결하기 위해 Spark를 도입하기에는 비용문제와, 기본 로직을 많이 바꿔야하는 이슈 발생Spark를 사용해본적이 없어 도입 및 이슈 발생시 대처하는데 시간이 오래걸림. 특징Rust 기반으로, 외부 종속성이 없다I/O : 일반적인 데이터 저장 계층에 대한 최고 수준의 지..
개발언어/Python
2024. 8. 30. 15:55