728x90 반응형 Software/Python31 [웹스크래핑] User Agent - 나를 차단한 웹페이지 접속하기 User Agent무분별한 크롤링, 스크래핑을 막기 위해서 사람이 직접 웹페이지를 접속한 것이 아니라 로봇이나 프로그램이 접속하는 것을 차단하는 웹페이지들이 있다. 즉, Requests 라이브러리를 사용해서 접근하는 것을 막는 사이트들이 있다. 이러한 사이트들을 크롤링, 스크래핑을 하기 위해서 User Agent를 사용한다. 우리가 로봇이 아니라 사람임을 User Agent를 사용하여 웹페이지에게 알려줄 수 있다. 위의 이미지에서 인간이 조작하는 웹 브라우저 형식을 사용해야 웹페이지가 로봇으로 인식하지 않는다. 나의 User Agent 확인하기 https://www.whatismybrowser.com/detect/what-is-my-user-agent/ What is my user agent?Every.. 2023. 1. 15. [웹스크래핑] 정규식(Regular Expression) 정규식(Regular Expression)특정 단어나 패턴을 표현하는 축약된 형식으로, 규칙이 있는 문자열을 비교, 추출할때 사용한다.크롤링이나 스크래핑 시에 필요한 정보를 가져올때 유용하게 사용한다. 예를 들어, 주민등록번호 : 95xxxx-xxxxxxx이메일 주소 : tistory@gmail.com차량 번호 : 123가 1234IP 주소 : 192-111.0.1 등이 있다.1. 정규식 형태를 가진 문자열을 정규식 객체로 컴파일한다. import rep = re.compile("ca.e") 위의 코드는 ca?e와 관련된 문자열을 찾기위한 첫 시작이다. 즉, 정규식을 정의하는 단계이다.ca?e는 care, case, cafe, cave 등이 될 수 있다. 정규식. : (ca.e) : 하나의 문자를 의미 .. 2023. 1. 15. [웹스크래핑] Requests 라이브러리 기초 Requests 라이브러리 웹 서버와 데이터를 주고 받기 위해서는 정해진 프로토콜(HTTP)을 사용해야한다.Requests는 웹 서버와 정해진 프로토콜에 따라 데이터를 요청하고 전달 받은 데이터를 관리한다. Requests를 사용하면 프로토콜을 알 필요 없이 정해진 함수만 호출하면 원하는 데이터를 추출할 수 있다.나중에 배울 셀레니움(Selenium)도 이러한 일련의 일들을 스스로 처리해줘서 내부 동작은 고민할 필요 없다. Requests는 불필요한 데이터를 요청하지 않기 때문에 셀레니움보다 속도가 빠르다. 단점은 세부 내용을 사용자가 컨트롤해야한다. 연습 : Google의 HTML 코드 가져오기1. 원하는 웹페이지의 정보 가져오기res = requests.get("http://google.com") #.. 2023. 1. 14. [웹스크래핑] 웹크롤링 vs. 웹스크래핑 웹크롤링 vs. 웹스크래핑 웹크롤링데이터를 수집하는 소프트웨어를 크롤러(crawler)라고 한다. 크롤러는 블로그, 뉴스 기사 등의 페이지를 모두 방문해서 문서가 어디에 있는지, 누가 작성했는지, 어떠한 내용이 들어 있는지를 수집한다. 수집한 데이터를 검색 포털이 데이터 베이스로 만들어 놓기 때문에 사람들이 검색하면 그 결과를 데이터 베이스에서 빠르게 찾아줄 수 있다. 어떤 웹페이지에서 페이지의 링크를 따라가면서 모든 내용을 가져오는 것. 허용된 링크를 따라가면서 데이터를 마구잡이로 가져오는 것을 의미한다. ex) 이벤트에 당첨되어 서점에서 카트에 30초 동안 담을 수 있는 모든 책을 담을 수 있는 기회가 생김. 다만 가장 윗줄에 있는 책들은 담으면 안된다. 이때 책의 내용과 관계없이 눈에 보이는 모든.. 2023. 1. 13. [Pycharm] 파이참(PyCharm) 단축키 주석 한꺼번에 주석 처리 : 블록 설정 후 Ctrl + / 한꺼번에 주석 풀기 : 블록 설정 후 Ctrl + / 복사/붙여넣기 (마우스 드래그 필요 없음) Ctrl + C : 한 줄 복사 Ctrl + X : 한 줄 잘라내기 Ctrl + D : 한 줄 복사 + 붙여넣기 기타 Ctrl + Enter : 커서는 유지한 채로 줄 바꿈 Ctrl + ↑,↓ : 커서는 유지한 채로 스크롤 이동 계속 업데이트 예정(2023.01.03) 2023. 1. 3. [Pycharm] 파이참(PyCharm) 프로젝트 생성 파이참과 같은 IDE를 사용하는 이유 중 하나가 프로젝트 관리가 편리하기 때문이다. 프로젝트는 폴더 or 디렉토리 단위이며 해당 폴더 안에 코드를 저장해서 사용한다. 1. New Project 생성 : Create a main.py welcome script를 체크한 경우 1. Location : 프로젝트 폴더 저장 위치, 작성한 코드가 저장될 위치 2. Location : 가상환경 저장 위치이며, 라이브러리와 모듈 등이 이곳에 저장됨 3. Base Interpreter : 기본 인터프리터, 설치한 파이썬을 의미함 4. Create a main.py welcome script : 프로젝트 생성 시 기본적으로 main.py를 생성한다. 아래의 Python Interpreter는 말 그대로 인터프리터(통역가.. 2023. 1. 2. 이전 1 2 3 4 5 6 다음 728x90 반응형