데이터 엔지니어 이것저것

Spark Streaming 본문

오픈소스/Spark

Spark Streaming

pastime 2023. 2. 23. 01:08
728x90

Spark Streaming은 분산처리를 위한 Apache Spark의 라이브러리 중 하나

이는 대규모 실시간 스트리밍 데이터를 처리하기 위한 높은 처리량과 낮은 지연 시간을 제공합니다.

 

Spark Streaming은 데이터를 작은 배치 단위로 분할하고, 이를 스트림으로 처리하는데,

이 스트림은 다른 스트림이나 외부 데이터 소스와 결합될 수 있다.

eg)Spark Streaming은 Kafka나 Flume 같은 메시지 큐, HDFS(Hadoop Distributed File System), Amazon S3 등 다양한 데이터 소스에서 스트림 데이터를 읽을 수 있다.

 

Spark Streaming은 각 배치에 대해 Spark의 일관된 API를 사용하여 데이터를 처리하고, 결과를 저장하거나 외부 시스템으로 출력할 수 있습니다. 이러한 결과는 다시 스트리밍 소스로 전달될 수 있습니다.

즉, Spark Streaming은 실시간 스트리밍 데이터 처리를 위해 대용량 데이터를 처리하는 분산 처리 시스템을 제공합니다.

 

 

728x90

'오픈소스 > Spark' 카테고리의 다른 글

Spark readStream with kafka, flask  (0) 2023.03.15
spark streaming socketTextStream  (0) 2023.03.04
Spark cache와 persist  (0) 2023.02.14
Spark UDF  (0) 2023.02.05
Spark Broadcast  (0) 2023.01.30