본문 바로가기
728x90
반응형

Software85

[웹스크래핑] Requests 라이브러리 기초 Requests 라이브러리 웹 서버와 데이터를 주고 받기 위해서는 정해진 프로토콜(HTTP)을 사용해야한다.Requests는 웹 서버와 정해진 프로토콜에 따라 데이터를 요청하고 전달 받은 데이터를 관리한다. Requests를 사용하면 프로토콜을 알 필요 없이 정해진 함수만 호출하면 원하는 데이터를 추출할 수 있다.나중에 배울 셀레니움(Selenium)도 이러한 일련의 일들을 스스로 처리해줘서 내부 동작은 고민할 필요 없다. Requests는 불필요한 데이터를 요청하지 않기 때문에 셀레니움보다 속도가 빠르다. 단점은 세부 내용을 사용자가 컨트롤해야한다. 연습 : Google의 HTML 코드 가져오기1. 원하는 웹페이지의 정보 가져오기res = requests.get("http://google.com") #.. 2023. 1. 14.
[HTML] XPath란? XPath HTML 문장 속의 요소, 속성 등을 지정하는 언어이다. XPath에는 XML문장을 트리로 다루기 때문에, 요소나 속성의 위치를 지정하는 것이 가능하다. HTML 내의 요소의 경로에 손쉽게 접근할 수 있다. 절대경로 문서의 시작부터 모든 경로를 표시하는 방법 계층 문서 내에서 특정 노드를 선택하기 위해 모든 단일 노드를 지정해야한다. 항상 루트 노드에서 시작한다. /html/body/div/div/div//div[1]/div[2]/div/div/div[2]/section[1]/span[1] 경로를 하나하나 다 적기 힘들고, 경로가 매우 길어진다. 상대경로 속성 이름과 속성 값으로 손쉽게 접근할 수 있는 방법 선택한 노드에서 시작할 수 있다. //태그 이름[@속성='값'] //tagname[@a.. 2023. 1. 13.
[웹스크래핑] 웹크롤링 vs. 웹스크래핑 웹크롤링 vs. 웹스크래핑 웹크롤링데이터를 수집하는 소프트웨어를 크롤러(crawler)라고 한다. 크롤러는 블로그, 뉴스 기사 등의 페이지를 모두 방문해서 문서가 어디에 있는지, 누가 작성했는지, 어떠한 내용이 들어 있는지를 수집한다. 수집한 데이터를 검색 포털이 데이터 베이스로 만들어 놓기 때문에 사람들이 검색하면 그 결과를 데이터 베이스에서 빠르게 찾아줄 수 있다. 어떤 웹페이지에서 페이지의 링크를 따라가면서 모든 내용을 가져오는 것. 허용된 링크를 따라가면서 데이터를 마구잡이로 가져오는 것을 의미한다.  ex) 이벤트에 당첨되어 서점에서 카트에 30초 동안 담을 수 있는 모든 책을 담을 수 있는 기회가 생김. 다만 가장 윗줄에 있는 책들은 담으면 안된다. 이때 책의 내용과 관계없이 눈에 보이는 모든.. 2023. 1. 13.
[HTML] 뷰포트(Viewport) 뷰포트(Viewport) 현재 화면에 보여지고 있는 영역을 의미한다. 기기 별로 뷰포트가 다르기 때문에, 동일한 웹 페이지라도 기기에 따라 배율 조정이 발생해서 화면의 크기가 다르게 보이는 현상이 나타난다. 컴퓨터 화면의 웹 페이지는 웹브라우저를 통해 페이지 크기를 조절하며 웹을 조회할 수 있지만, 모바일은 고정된 사이즈로 조회해야한다. 따라서 웹의 모든 콘텐츠를 디바이스에서 알맞게 표시하기 위해서는 배율 조정이 필요하다. PC용 웹페이지와 모바일 웹페이지를 따로 만드는 경우도 있다. ex) 네이버, 구글 등 뷰포트 추가 전 뷰포트 추가 후 개발자 도구(F12)에서 Toggle Device Toolbar(또는 반응현 디자인 모드)를 누르면 확인할 수 있다. 2023. 1. 12.
[HTML] 메타(Meta) 태그 메타(Meta) 태그 HTML 문서에 대한 메타데이터를 정의. 메타데이터 : 데이터에 대한 데이터, 즉 '정보'를 의미 항상 head 태그 안에 들어가며, 문자 세트, 페이지 설명, 키워드, 문서 작성자, 뷰포트 등을 지정하는데 사용. 웹페이지에 대한 정보를 제공하여 검색엔진이 페이지를 검색할 때 참고할 수 있고, 검색 결과에 반영할 수 있음. 유형 및 속성 charset : 문자 세트 문자 인코딩에 대한 요약 정보 속성. 영문과 한글을 모두 사용하기 위해 utf-8 방식을 사용한다. 문자 인코딩을 하지 않으면 웹페이지가 자동으로 추정하여 지정하기 때문에 글자가 깨질 수 있다. http-equiv : 콘텐츠 속성 정보/값에 대한 HTTP 헤더 제공 HTTP : 인터넷에서 데이터를 주고 받을 수 있는 프로.. 2023. 1. 12.
[HTML] 폼 태그 폼 태그 폼 : 사용자가 입력한 데이터(입력값)를 서버로 보내기 위해 사용하는 태그 서버와 클라이언트 서버 : 정보를 제공하는 호스트(Host). 클라이언트(사용자)가 요청을 하면 서버는 그에대한 정보를 제공한다. 클라이언트 → 서버 : 네이버 로그인(아이디와 비밀번호 전송) 클라이언트 ← 서버 : 아이디와 비밀번호가 맞으면 로그인시켜줌. 틀리면 틀렸다는 정보를 되돌려준다. 폼(Form) 폼은 입력 요소드를 감싸고 있으며, 입력 값을 서버로 전송할 수 있다. 폼 태그에 묶여있는 입력 요소들은 하나의 양식으로서의 역할을 한다. 폼의 입력 값을 제출하기 위해 input 태그의 submit 타입을 사용한다. 속성 action : 입력값을 전송할 서버의 url method : 클라이언트가 서버로 데이터를 전송하.. 2023. 1. 11.
728x90
반응형