본문 바로가기
728x90
반응형

Software/Python31

[웹스크래핑] BS4 활용 + CSV 기본 - 네이버 증권 실습 1 : 네이버 증권 웹페이지에서 시가총액 1 ~ 200위 종목과 정보 가져오기   import csvimport requestsfrom bs4 import BeautifulSoupurl = "https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=" 스크래핑한 정보를 저장하기 위해 csv 모듈을 사용한다. 접근할 url : https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=  url 맨 뒤 page= 다음에 숫자가 오는데 숫자가 빠져있다. 페이지 숫자는 for문을 사용하여 접근할 것이다. 예를 들어,page=1 : 첫 번째 페이지page=2 : 두 번째 페이지    filena.. 2023. 1. 26.
[웹스크래핑] Beautifulsoup4 활용 3 - 다음 영화 실습 1 : 최근 5년 역대 관객순위 1 ~ 5위 영화 이미지 가져오기 import requestsfrom bs4 import BeautifulSoupfor year in range(2018, 2023): url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(year) res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(res.text, "lxml")...tot&q={}%EB%85%84%EC....format(year) 2018년부터 2022년.. 2023. 1. 24.
[웹스크래핑] Beautifulsoup4 활용 2 - 쿠팡 실습 1 : 쿠팡에서 노트북 제품 가져오기 import requestsimport refrom bs4 import BeautifulSoupurl = "https://www.coupang.com/np/search?q=%EB%85%B8%ED%8A%B8%EB%B6%81&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=false&brand=&offerCondition=&rating=0&page=1&rocketAll=false&searchIndexingToken=1=6&backgroundColor.. 2023. 1. 24.
[웹스크래핑] HTTP Method - Get vs. Post HTTP MethodHTTP Method는 크게 Get 방식과 Post 방식이 있다. *HTTP : 웹상에서 클라이언트와 서버 간에 Request(요청)/Response(응답)으로 데이터를 주고 받을 수 있는 프로토콜   Get서버로 어떠한 리소스로 부터 정보를 얻기(Get)위해 사용하는 방식 Get은 데이터를 읽을 때만 사용하고 데이터를 수정하지 않는다.어떠한 정보를 누구나 볼 수 있게 url에 적어서 보내는 방식이다.url에 적어서 보낼때 쿼리스트링(QueryString)을 사용한다.Get은 한번 전송할 때, 보낼 수 있는 데이터 양이 정해져있어서 많은 양의 데이터를 보내지 못한다. 쿼리스트링(QueryString)www.example-url.com/resources?name1=value1&name2.. 2023. 1. 18.
[웹스크래핑] Beautifulsoup4 활용 1 - 네이버 웹툰 실습1 : 네이버 웹툰 전체 목록(제목) 가져오기 import requestsfrom bs4 import BeautifulSoupurl = "https://comic.naver.com/webtoon/weekday" # 접근할 urlres = requests.get(url) # 원하는 url의 정보res.raise_for_status() # 웹페이지의 상태가 정상인지 확인soup = BeautifulSoup(res.text, "lxml") # 가져온 HTML 문서를 파서를 통해 BeautifulSoup 객체로 만듦 # 네이버 웹툰 전체 목록 가져오기cartoons = soup.find_all("a", attrs={"class":"title"}) # HTML 문서에서 태그명이 a이고 class 속성이 tit.. 2023. 1. 17.
[웹스크래핑] Beautifulsoup4 기본 관련 라이브러리 및 패키지 설치pip install beautifulsoup4 : 스크래핑을 위한 패키지pip install lxml : 구문을 분석하는 파서(Parser)실습 : 네이버웹툰 1. url 접근 및 BeautifulSoup 객체 만들기import requestsfrom bs4 import BeautifulSoupurl = "https://comic.naver.com/webtoon/weekday"res = requests.get(url)res.raise_for_status()soup = BeautifulSoup(res.text, "lxml") # 가져온 HTML 문서를 파서를 통해 BeautifulSoup 객체로 만듦1. 네이버웹툰 url의 정보를 requests.get() 함수를 사용하여 .. 2023. 1. 15.
728x90
반응형