반응형
검색 키워드를 이용하여 원하는 제목과 이미지 링크 가져오기
기본적인 라이브러리를 넣어주는 부분이다.
위 사이트에서 검색어를 입력해서 블로그의 타이틀과 이미지 값을 받아오는 부분이다.
해당 검색어를 입력받아서 결과에 대해서 BeautifulSoup 하는 부분이다.
soup에서 find_all 명령어를 통해 해당하는 부분을 전부 가져오는데 a 태그 안에 있는 class의 sh_blog_title을 가져온다.
find_all로 가져올 경우 , 를 기준으로 인덱스로 들어간다.
그 뒤 list형태로 된 것을 for 문을 이용해 값을 하나씩 뽑아온다.
또한 attrs를 이용해 해당 태그를 뽑아온다. 그 후 그 값들을 list에 넣어준다.
리스트로 빼낸 값을 pandas의 DataFrame으로 넣어준다.
데이터 프레임으로 만든 값을 csv 로 저장한다. mode w는 저장한다는 뜻이고 encoding 은 저장 방식 , index는 행의 인덱스를 같이 보낼지를 결정하는 건데 False로 안 쓴다고 명시한다.
이 값을 다시 가져와서 확인해 본다.
반응형
'Base > Python' 카테고리의 다른 글
[Python] python 에서 Seleium을 통한 동적 크롤링 - 1 (0) | 2020.10.08 |
---|---|
[Python] python 에서 Seleium을 설치 방법 (0) | 2020.10.08 |
[Python] BeautifulSoup을 통한 이미지 스크래핑 하기 (0) | 2020.10.07 |
[python] 영화 리뷰에 대한 자연어 처리분석/ 감성분석하기 feat. 스크래핑 (0) | 2020.10.07 |
[python] BeautifulSoup를 통한 영화리뷰 scraping 하기 (0) | 2020.10.07 |