데이터 엔지니어 이것저것

수집도중 missing data 처리 본문

기타/crawler

수집도중 missing data 처리

pastime 2021. 9. 24. 02:30
728x90

스크래핑을 하다 보면 여러가지 이유로 인해 데이터가 누락되는 경우가 있다.

해당 데이터를 처리하는 방법은 많은데 나는 pipeline에서 처리할 예정이다.

from scrapy.exceptions import DropItem



        if item['title']: # 만약 타이틀이 null, 못가져온다면
            pass
        else:
            1. item['title'] = 'Missing title'
            
            2. raise DropItem("Missing title") # 해당 item 삭제
        return item

이러한 로직으로 처리가 가능하다.

if문을 통해 들어오는 item에 title이 빈값으로 들어올 경우

1. 해당 데이터를 default로 missig title이라고 지정을 해주거나 (저장 o)
2. DropItem을 하여 해당 데이터를 삭제하는 방법이 있다. ( 저장 x)

 

1번의 경우 items에서 item 필드에 default값을 지정해주면 사용안해도 된다.

 

728x90

'기타 > crawler' 카테고리의 다른 글

크롤링이란?  (0) 2021.12.10
DataBase 연동  (0) 2021.09.24
pipelines  (0) 2021.09.24
Settings  (0) 2021.09.24
scrapy?  (0) 2021.09.24