티스토리 뷰

python/웹 크롤링(python)

urllib 라이브러리

취뽀가자!! 2018. 4. 29. 21:04

urllib의 주요 모듈 활용

urllib 라이브러리는 python에서 웹과 관련된 데이터를 쉽게 이용하게 도와주는 라이브러리입니다.

request 모듈

1
2
3
4
5
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html,"html.parser")
print(bsObj.h1)

cs

웹 문서 불러오기

1
2
3
4
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
print(html.status)
Colored by Color Scripter
cs

urlopen함수는 인수에 데이터를 얻고 싶은 웹 페이지의 주소를 넣어주면 됩니다.

urlopen함수는 웹에서 얻은 데이터에 대한 객체를 돌려줍니다.

웹 서버의 정보 받아오기

1
2
3
4
5
6
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
status=html.getheaders()
for i in status:
    print(i)
Colored by Color Scripter
cs

getheaders()함수를 사용하면 서버에 대한 정보를 리스트로 돌려준다. 리스트를 출력해보면 운영체제나 날짜, 타입 등 여러 가지 정보를 알 수 있다. 이 정보들은 크롤링 하려는 홈페이지가 어떤 형식으로 만들어졌는지 알 수 있다.

웹 페이지의 데이터를 읽어오기

1
2
3
4
5
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html.read(),"html.parser")
print(bsObj.h1)
Colored by Color Scripter
cs

read() 함수를 사용하게 되면 문서의 HTML 코드를 출력한다.

크롤러를 제작할 때도 read()함수를 써서 HTML 코드를 불러온 뒤 원하는 데이터만 골라내는 작업을 할 수 있다.

'python > 웹 크롤링(python)' 카테고리의 다른 글

API에서 얻은 데이터와 웹 스크레이퍼 결합하기!!! (0)	2018.05.05
크롤링의 시작 (0)	2018.05.02
고급 HTML 분석 (0)	2018.05.01
BeautifulSoup 라이브러리 (0)	2018.05.01

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

jwlee