[데이터 엔지니어 이것저것

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

데이터 엔지니어 이것저것

오픈소스/Spark

pastime 2023. 2. 5. 00:27

728x90

User-Defined Function으로, Spark DataFrame 또는 Spark SQL 열에 있는 데이터에 적용할 수 있는

사용자 정의 함수이다. 스파크 UDF는 내장된 스파크 기능으로는 달성할 수 없는 복잡한 데이터 연산을 수행하는데 사용.

스파크 UDF는 스칼라, 자바, 파이썬으로 구현, WithColumn 또는 select 메서드를 사용하여,

데이터프레임의 열을 적용할 수 있다.

UDF는 하나 이상의 열을 입력으로 사용하고, 변환된 데이터와 함께 새 열을 반환한다.

UDF는 데이터 처리를 위한 강력한 도구이지만, 스파크가 JVM과 UDF간에 데이터를 직렬화 및 역직렬화해야하기 때문에,

성능 오버헤드가 발생한다. 이의 성능을 보장하려면 UDF의 사용을 신중하게 평가하고 신중하게 사용하는것이 중요

일반적으로 스파크 내장 기능은 가능할 때 사용하고, UDF는 필요할 때만 사용하는것이 좋다.

728x90

'오픈소스/Spark' Related Articles