티스토리 뷰
urllib의 주요 모듈 활용
urllib 라이브러리는 python에서 웹과 관련된 데이터를 쉽게 이용하게 도와주는 라이브러리입니다.
request 모듈
1 2 3 4 5 | from urllib.request import urlopen from bs4 import BeautifulSoup html=urlopen("http://www.pythonscraping.com/pages/page1.html") bsObj=BeautifulSoup(html,"html.parser") print(bsObj.h1) | cs |
웹 문서 불러오기
1 2 3 4 | from urllib.request import urlopen from bs4 import BeautifulSoup html=urlopen("http://www.pythonscraping.com/pages/page1.html") print(html.status) | cs |
urlopen함수는 인수에 데이터를 얻고 싶은 웹 페이지의 주소를 넣어주면 됩니다.
urlopen함수는 웹에서 얻은 데이터에 대한 객체를 돌려줍니다.
웹 서버의 정보 받아오기
1 2 3 4 5 6 | from urllib.request import urlopen from bs4 import BeautifulSoup html=urlopen("http://www.pythonscraping.com/pages/page1.html") status=html.getheaders() for i in status: print(i) | cs |
getheaders()함수를 사용하면 서버에 대한 정보를 리스트로 돌려준다. 리스트를 출력해보면 운영체제나 날짜, 타입 등 여러 가지 정보를 알 수 있다. 이 정보들은 크롤링 하려는 홈페이지가 어떤 형식으로 만들어졌는지 알 수 있다.
웹 페이지의 데이터를 읽어오기
1 2 3 4 5 | from urllib.request import urlopen from bs4 import BeautifulSoup html=urlopen("http://www.pythonscraping.com/pages/page1.html") bsObj=BeautifulSoup(html.read(),"html.parser") print(bsObj.h1) | cs |
read() 함수를 사용하게 되면 문서의 HTML 코드를 출력한다.
크롤러를 제작할 때도 read()함수를 써서 HTML 코드를 불러온 뒤 원하는 데이터만 골라내는 작업을 할 수 있다.
'python > 웹 크롤링(python)' 카테고리의 다른 글
API에서 얻은 데이터와 웹 스크레이퍼 결합하기!!! (0) | 2018.05.05 |
---|---|
크롤링의 시작 (0) | 2018.05.02 |
고급 HTML 분석 (0) | 2018.05.01 |
BeautifulSoup 라이브러리 (0) | 2018.05.01 |
댓글