BeautifulSoup

    범용적인 웹 크롤링 툴 제작 + 파이썬 이해하기

    이번 케실주 프로젝트 주제인 "SQL 인젝션 자동화 진단도구" 제작을 위해선 그 선행으로 해당 웹 페이지에 대한 크롤링이 선행되어야 한다. 또한 다양한 경우에 대응해야 하므로, 범용성을 가지는 크롤링 툴 제작이 필요하다. 그래서 파이썬의 웹 페이지 크롤링 라이브러리인 BeautifulSoup 와 Requests를 이용한 웹 크롤링을 공부하게 되었다. 기초적인 것들은 다른 블로그나 사이트들에도 있으니 굳이 작성을 하지 않겠고, 범용성을 가지는 자동화가 목적인 경우 어떤 식으로 크롤링 코드를 작성해야 하는지 정도만 메모하려고 한다. 1. request 모듈 사용시엔 인자로 넘어갈 URL에 반드시 http 혹은 https가 붙어야한다. URL을 입력받아 해당 목적지에 요청을 보내는 식의 코드인 경우, 사용자가..