웹 크롤링이란?
웹 페이지에 있는 데이터를 가져오는 일
1. 어떻게 데이터를 가져올까?
- 웹 페이지를 전체 가져와서(get)
- 내가 원하는 부분만 선택(parsing)
- 웹서버에 requests 를 보내서 response(html) 받는다.
2. 불법? 합법?
- robots.txt
- 크롤링 봇에 대한 제한을 걸어두는 것
- 공식 API
- 몰래 크롤링하지말고 합법적으로 데이터를 가져갈 수 있는 창구를 만들어놓음
3. 활용 기술
- bs4 (BeautifulSoup)
- requests
- session
- 로그인이 필요한 경우
- Selenium
- js 등 추가적인 기술이 필요할 때
- database
- scheduling
4. 참고
댓글