티스토리 뷰

python/웹 크롤링(python)

urllib 라이브러리

취뽀가자!! 2018. 4. 29. 21:04

urllib의 주요 모듈 활용

urllib 라이브러리는 python에서 웹과 관련된 데이터를 쉽게 이용하게 도와주는 라이브러리입니다.

request 모듈

1
2
3
4
5
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html,"html.parser")
print(bsObj.h1)

cs

웹 문서 불러오기

1
2
3
4
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
print(html.status)
cs


urlopen함수는 인수에 데이터를 얻고 싶은 웹 페이지의 주소를 넣어주면 됩니다.

urlopen함수는 웹에서 얻은 데이터에 대한 객체를 돌려줍니다.


웹 서버의 정보 받아오기

1
2
3
4
5
6
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
status=html.getheaders()
for i in status:
    print(i)
cs

getheaders()함수를 사용하면 서버에 대한 정보를 리스트로 돌려준다. 리스트를 출력해보면 운영체제나 날짜, 타입 등 여러 가지 정보를 알 수 있다. 이 정보들은 크롤링 하려는 홈페이지가 어떤 형식으로 만들어졌는지 알 수 있다.

웹 페이지의 데이터를 읽어오기

1
2
3
4
5
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html.read(),"html.parser")
print(bsObj.h1)
cs

read() 함수를 사용하게 되면 문서의 HTML 코드를 출력한다.
크롤러를 제작할 때도 read()함수를 써서 HTML 코드를 불러온 뒤 원하는 데이터만 골라내는 작업을 할 수 있다.


'python > 웹 크롤링(python)' 카테고리의 다른 글

API에서 얻은 데이터와 웹 스크레이퍼 결합하기!!!  (0) 2018.05.05
크롤링의 시작  (0) 2018.05.02
고급 HTML 분석  (0) 2018.05.01
BeautifulSoup 라이브러리  (0) 2018.05.01
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함