오픈소스/Spark
Spark UDF
pastime
2023. 2. 5. 00:27
728x90
UDF란?
User-Defined Function으로, Spark DataFrame 또는 Spark SQL 열에 있는 데이터에 적용할 수 있는
사용자 정의 함수이다. 스파크 UDF는 내장된 스파크 기능으로는 달성할 수 없는 복잡한 데이터 연산을 수행하는데 사용.
스파크 UDF는 스칼라, 자바, 파이썬으로 구현, WithColumn 또는 select 메서드를 사용하여,
데이터프레임의 열을 적용할 수 있다.
UDF는 하나 이상의 열을 입력으로 사용하고, 변환된 데이터와 함께 새 열을 반환한다.
UDF는 데이터 처리를 위한 강력한 도구이지만, 스파크가 JVM과 UDF간에 데이터를 직렬화 및 역직렬화해야하기 때문에,
성능 오버헤드가 발생한다. 이의 성능을 보장하려면 UDF의 사용을 신중하게 평가하고 신중하게 사용하는것이 중요
일반적으로 스파크 내장 기능은 가능할 때 사용하고, UDF는 필요할 때만 사용하는것이 좋다.
728x90