[웹스크래핑] Beautifulsoup4 활용 2 - 쿠팡
·
Programming/Python
실습 1 : 쿠팡에서 노트북 제품 가져오기 import requestsimport refrom bs4 import BeautifulSoupurl = "https://www.coupang.com/np/search?q=%EB%85%B8%ED%8A%B8%EB%B6%81&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=false&brand=&offerCondition=&rating=0&page=1&rocketAll=false&searchIndexingToken=1=6&backgroundColor..
[웹스크래핑] HTTP Method - Get vs. Post
·
Programming/Python
HTTP MethodHTTP Method는 크게 Get 방식과 Post 방식이 있다. *HTTP : 웹상에서 클라이언트와 서버 간에 Request(요청)/Response(응답)으로 데이터를 주고 받을 수 있는 프로토콜   Get서버로 어떠한 리소스로 부터 정보를 얻기(Get)위해 사용하는 방식 Get은 데이터를 읽을 때만 사용하고 데이터를 수정하지 않는다.어떠한 정보를 누구나 볼 수 있게 url에 적어서 보내는 방식이다.url에 적어서 보낼때 쿼리스트링(QueryString)을 사용한다.Get은 한번 전송할 때, 보낼 수 있는 데이터 양이 정해져있어서 많은 양의 데이터를 보내지 못한다. 쿼리스트링(QueryString)www.example-url.com/resources?name1=value1&name2..
[웹스크래핑] Beautifulsoup4 활용 1 - 네이버 웹툰
·
Programming/Python
실습1 : 네이버 웹툰 전체 목록(제목) 가져오기 import requestsfrom bs4 import BeautifulSoupurl = "https://comic.naver.com/webtoon/weekday" # 접근할 urlres = requests.get(url) # 원하는 url의 정보res.raise_for_status() # 웹페이지의 상태가 정상인지 확인soup = BeautifulSoup(res.text, "lxml") # 가져온 HTML 문서를 파서를 통해 BeautifulSoup 객체로 만듦 # 네이버 웹툰 전체 목록 가져오기cartoons = soup.find_all("a", attrs={"class":"title"}) # HTML 문서에서 태그명이 a이고 class 속성이 tit..
[웹스크래핑] Beautifulsoup4 기본
·
Programming/Python
관련 라이브러리 및 패키지 설치pip install beautifulsoup4 : 스크래핑을 위한 패키지pip install lxml : 구문을 분석하는 파서(Parser)실습 : 네이버웹툰 1. url 접근 및 BeautifulSoup 객체 만들기import requestsfrom bs4 import BeautifulSoupurl = "https://comic.naver.com/webtoon/weekday"res = requests.get(url)res.raise_for_status()soup = BeautifulSoup(res.text, "lxml") # 가져온 HTML 문서를 파서를 통해 BeautifulSoup 객체로 만듦1. 네이버웹툰 url의 정보를 requests.get() 함수를 사용하여 ..
[웹스크래핑] User Agent - 나를 차단한 웹페이지 접속하기
·
Programming/Python
User Agent무분별한 크롤링, 스크래핑을 막기 위해서 사람이 직접 웹페이지를 접속한 것이 아니라 로봇이나 프로그램이 접속하는 것을 차단하는 웹페이지들이 있다. 즉, Requests 라이브러리를 사용해서 접근하는 것을 막는 사이트들이 있다. 이러한 사이트들을 크롤링, 스크래핑을 하기 위해서 User Agent를 사용한다. 우리가 로봇이 아니라 사람임을 User Agent를 사용하여 웹페이지에게 알려줄 수 있다.  위의 이미지에서 인간이 조작하는 웹 브라우저 형식을 사용해야 웹페이지가 로봇으로 인식하지 않는다. 나의 User Agent 확인하기 https://www.whatismybrowser.com/detect/what-is-my-user-agent/ What is my user agent?Every..
[웹스크래핑] 정규식(Regular Expression)
·
Programming/Python
정규식(Regular Expression)특정 단어나 패턴을 표현하는 축약된 형식으로, 규칙이 있는 문자열을 비교, 추출할때 사용한다.크롤링이나 스크래핑 시에 필요한 정보를 가져올때 유용하게 사용한다. 예를 들어, 주민등록번호 : 95xxxx-xxxxxxx이메일 주소 : tistory@gmail.com차량 번호 : 123가 1234IP 주소 : 192-111.0.1 등이 있다.1. 정규식 형태를 가진 문자열을 정규식 객체로 컴파일한다. import rep = re.compile("ca.e") 위의 코드는 ca?e와 관련된 문자열을 찾기위한 첫 시작이다. 즉, 정규식을 정의하는 단계이다.ca?e는 care, case, cafe, cave 등이 될 수 있다. 정규식. : (ca.e) : 하나의 문자를 의미 ..