Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- kafka
- k9s
- 도커
- ksql
- 모바일
- 카프카
- spring boot
- freshness
- 윈도우
- CDC
- spark
- query history
- 크롤링
- mysql
- Java
- bar cahrt
- 파이썬
- UI for kafka
- numpartitions
- polars
- DBT
- KubernetesPodOperator
- Materializations
- proerty
- Python
- 쿠버네티스
- docker
- dbt_project
- airflow
- 동적 차트
Archives
- Today
- Total
데이터 엔지니어 이것저것
Spark UDF 본문
728x90
UDF란?
User-Defined Function으로, Spark DataFrame 또는 Spark SQL 열에 있는 데이터에 적용할 수 있는
사용자 정의 함수이다. 스파크 UDF는 내장된 스파크 기능으로는 달성할 수 없는 복잡한 데이터 연산을 수행하는데 사용.
스파크 UDF는 스칼라, 자바, 파이썬으로 구현, WithColumn 또는 select 메서드를 사용하여,
데이터프레임의 열을 적용할 수 있다.
UDF는 하나 이상의 열을 입력으로 사용하고, 변환된 데이터와 함께 새 열을 반환한다.
UDF는 데이터 처리를 위한 강력한 도구이지만, 스파크가 JVM과 UDF간에 데이터를 직렬화 및 역직렬화해야하기 때문에,
성능 오버헤드가 발생한다. 이의 성능을 보장하려면 UDF의 사용을 신중하게 평가하고 신중하게 사용하는것이 중요
일반적으로 스파크 내장 기능은 가능할 때 사용하고, UDF는 필요할 때만 사용하는것이 좋다.
728x90
'오픈소스 > Spark' 카테고리의 다른 글
Spark Streaming (0) | 2023.02.23 |
---|---|
Spark cache와 persist (0) | 2023.02.14 |
Spark Broadcast (0) | 2023.01.30 |
Spark Session (0) | 2023.01.08 |
Spark SQL (0) | 2023.01.08 |