오픈소스/Spark

Spark History Server

pastime 2024. 5. 1. 04:01
728x90

스파크를 테스트 하다보면 Spark UI로 어떻게 동작하는지 확인을 하는데

그때마다 계속 Thread.sleep을 주는게 불편했다. 

이를 다른 방법이 없나 보는데 히스토리 서버라는게 존재해서 관련 세팅 작업 진행

 

주의) 윈도우 환경이라 mac등과는 다른점 있음

    val spark = SparkSession.builder()
      .appName("Spark Histroy Server")
      .config("spark.eventLog.enabled", "true")
      .master("local[*]")
      .getOrCreate()

 

첫번째로 Spark를 실행할때 config에 event enable을 추가하였다.

 

그리고 spark Dir에서 conf 작업도 필요하다

 

{Spark dir}/conf 의 spark-defaults.conf.template를 복사하여 spark-defaults.conf 생성

spark.eventLog.enabled           true
spark.history.fs.logDirectory   file:///D:/tmp/spark-events

 

관련 주석 해제후 enabled 하고, 로그 DIR 설정

 

이후 bin dir에 있는 cmd 명령어로 실행

 spark-class.cmd org.apache.spark.deploy.history.HistoryServer

 

추가)

.config("spark.history.fs.logDirectory", "file:///C:/Spark/spark-3.5.1-bin-hadoop3/event-logs")

 

이렇게도 작성해보았으나, 오류는 안나지만 데이터 저장이 안됨. 해서

 

 

dir 없다는 오류에, 해당 dir를 생성해서 사용중

( D드라이브에 코드가 있어서 그런것인가 추측중, 귀찮아서 패스 )

 

 

728x90