[python] BeautifulSoup를 통한 영화리뷰 scraping 하기

제일 흔한 영화 리뷰를 가져오기로 한다. 이 사이트는 네이버 영화 사이트이다. movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=2017-05-01 크롤링하기 위해서는 html의 구조를 봐야 한다. 크롬에서 F12 버튼을 통해 해당 페이지의 소스를 본다. 이걸 통해 해당 위치가 어디인지 찾을 수 있다. 아래 환경은 jupyter에서 실행하였다. 크롤링할 때 대표적으로 쓰는 BeautifulSoup을 사용하였다. 기본적인 필요 로직이다. base_url에 기본 메인 home url을 넣고 sub에 우리가 이동한 곳에 대한 url을 넣는다. 그리고 try except를 통해 에러가 났을 때 해당 부분으로 보낸다. 그게 아닐 경우 BeautifulSoup를 이용..

→2020. 10. 7. 09:06

[python] BeautifulSoup를 통한 영화리뷰 scraping 하기

티스토리툴바