Base/Python

[Python] BeautifulSoup을 통한 이미지 블로그 스크래핑하기

반응형

 

검색 키워드를 이용하여 원하는 제목과 이미지 링크 가져오기


 

기본적인 라이브러리를 넣어주는 부분이다.

 

 

위 사이트에서 검색어를 입력해서 블로그의 타이틀과 이미지 값을 받아오는 부분이다.

 

 

해당 검색어를 입력받아서 결과에 대해서 BeautifulSoup 하는 부분이다.

 

soup에서 find_all 명령어를 통해 해당하는 부분을 전부 가져오는데 a 태그 안에 있는 class의  sh_blog_title을 가져온다.

find_all로 가져올 경우 , 를 기준으로 인덱스로 들어간다.

 

그 뒤 list형태로 된 것을  for 문을 이용해 값을 하나씩 뽑아온다.

또한 attrs를 이용해 해당 태그를 뽑아온다. 그 후 그 값들을 list에 넣어준다.

 

 

리스트로 빼낸 값을 pandas의 DataFrame으로 넣어준다.

 

 

데이터 프레임으로 만든 값을 csv 로 저장한다. mode w는 저장한다는 뜻이고 encoding 은 저장 방식 , index는 행의 인덱스를 같이 보낼지를 결정하는 건데 False로 안 쓴다고 명시한다.

 

 

 

이 값을 다시 가져와서 확인해 본다. 

 

반응형