Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- DBT
- query history
- k9s
- proerty
- 크롤링
- dbt_project
- 모바일
- 동적 차트
- 쿠버네티스
- 파이썬
- polars
- Python
- kafka
- 카프카
- airflow
- numpartitions
- bar cahrt
- UI for kafka
- 윈도우
- 도커
- ksql
- spring boot
- Java
- Materializations
- freshness
- mysql
- CDC
- spark
- KubernetesPodOperator
- docker
Archives
- Today
- Total
데이터 엔지니어 이것저것
Spark Streaming 본문
728x90
Spark Streaming은 분산처리를 위한 Apache Spark의 라이브러리 중 하나
이는 대규모 실시간 스트리밍 데이터를 처리하기 위한 높은 처리량과 낮은 지연 시간을 제공합니다.
Spark Streaming은 데이터를 작은 배치 단위로 분할하고, 이를 스트림으로 처리하는데,
이 스트림은 다른 스트림이나 외부 데이터 소스와 결합될 수 있다.
eg)Spark Streaming은 Kafka나 Flume 같은 메시지 큐, HDFS(Hadoop Distributed File System), Amazon S3 등 다양한 데이터 소스에서 스트림 데이터를 읽을 수 있다.
Spark Streaming은 각 배치에 대해 Spark의 일관된 API를 사용하여 데이터를 처리하고, 결과를 저장하거나 외부 시스템으로 출력할 수 있습니다. 이러한 결과는 다시 스트리밍 소스로 전달될 수 있습니다.
즉, Spark Streaming은 실시간 스트리밍 데이터 처리를 위해 대용량 데이터를 처리하는 분산 처리 시스템을 제공합니다.
728x90
'오픈소스 > Spark' 카테고리의 다른 글
Spark readStream with kafka, flask (0) | 2023.03.15 |
---|---|
spark streaming socketTextStream (0) | 2023.03.04 |
Spark cache와 persist (0) | 2023.02.14 |
Spark UDF (0) | 2023.02.05 |
Spark Broadcast (0) | 2023.01.30 |