본문 바로가기
  • 기억보단 기록을..
Python/Crawling

웹 크롤링 개념

by reine94._.dev 2020. 12. 16.

웹 크롤링이란?

웹 페이지에 있는 데이터를 가져오는 일


1. 어떻게 데이터를 가져올까?

  • 웹 페이지를 전체 가져와서(get)
  • 내가 원하는 부분만 선택(parsing)
  • 웹서버에 requests 를 보내서 response(html) 받는다.

 

2. 불법? 합법?

  • robots.txt
    • 크롤링 봇에 대한 제한을 걸어두는 것
  • 공식 API
    • 몰래 크롤링하지말고 합법적으로 데이터를 가져갈 수 있는 창구를 만들어놓음

 

3. 활용 기술

  • bs4 (BeautifulSoup)
  • requests
  • session
    • 로그인이 필요한 경우
  • Selenium
    • js 등 추가적인 기술이 필요할 때
  • database
  • scheduling

 

4. 참고

택뽕 유튜브

 

 

댓글