데이터 엔지니어 이것저것

Spark UDF 본문

오픈소스/Spark

Spark UDF

pastime 2023. 2. 5. 00:27
728x90

UDF란?

User-Defined Function으로,  Spark DataFrame 또는 Spark SQL 열에 있는 데이터에 적용할 수 있는

사용자 정의 함수이다. 스파크 UDF는 내장된 스파크 기능으로는 달성할 수 없는 복잡한 데이터 연산을 수행하는데 사용.

 

스파크 UDF는 스칼라, 자바, 파이썬으로 구현, WithColumn 또는 select 메서드를 사용하여,

데이터프레임의 열을 적용할 수 있다.

UDF는 하나 이상의 열을 입력으로 사용하고, 변환된 데이터와 함께 새 열을 반환한다.

 

UDF는 데이터 처리를 위한 강력한 도구이지만, 스파크가 JVM과 UDF간에 데이터를 직렬화 및 역직렬화해야하기 때문에,

성능 오버헤드가 발생한다. 이의 성능을 보장하려면  UDF의 사용을 신중하게 평가하고 신중하게 사용하는것이 중요

 

일반적으로 스파크 내장 기능은 가능할 때 사용하고, UDF는 필요할 때만 사용하는것이 좋다.

 

 

 

728x90

'오픈소스 > Spark' 카테고리의 다른 글

Spark Streaming  (0) 2023.02.23
Spark cache와 persist  (0) 2023.02.14
Spark Broadcast  (0) 2023.01.30
Spark Session  (0) 2023.01.08
Spark SQL  (0) 2023.01.08