Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- Python
- 동적 차트
- 쿠버네티스
- docker
- polars
- proerty
- k9s
- bar cahrt
- airflow
- mysql
- spark
- dbt_project
- 모바일
- 크롤링
- 카프카
- ksql
- DBT
- freshness
- KubernetesPodOperator
- Java
- CDC
- numpartitions
- query history
- 도커
- spring boot
- 파이썬
- kafka
- 윈도우
- Materializations
- UI for kafka
Archives
- Today
- Total
데이터 엔지니어 이것저것
수집도중 missing data 처리 본문
728x90
스크래핑을 하다 보면 여러가지 이유로 인해 데이터가 누락되는 경우가 있다.
해당 데이터를 처리하는 방법은 많은데 나는 pipeline에서 처리할 예정이다.
from scrapy.exceptions import DropItem
if item['title']: # 만약 타이틀이 null, 못가져온다면
pass
else:
1. item['title'] = 'Missing title'
2. raise DropItem("Missing title") # 해당 item 삭제
return item
이러한 로직으로 처리가 가능하다.
if문을 통해 들어오는 item에 title이 빈값으로 들어올 경우
1. 해당 데이터를 default로 missig title이라고 지정을 해주거나 (저장 o)
2. DropItem을 하여 해당 데이터를 삭제하는 방법이 있다. ( 저장 x)
1번의 경우 items에서 item 필드에 default값을 지정해주면 사용안해도 된다.
728x90