파이썬 활용 - Web Page 내의 Image Object의 Path 추출

Programming/Python 2016. 4. 29. 21:46

share this post

Python2를 이용하여 Web page의 URL을 주면 base page(html)을 가져와서 image tag에 기술된 image file들의 path list를 만들어 보는 간단한 실습을 해보도록 하겠습니다.

(Python3 와 Python2는 문법 및 약간의 차이가 있다는 점이 있으나, 사용법은 거의 유사합니다.)

import re, urllib2

def get_urls(url):

response = urllib2.urlopen(url)

page = response.read()

#print page ->test페이지의 HTML 소스들이 전부 출력됩니다.

urls = []

linksList = re.findall('<img src=(.*?(gif|jpg|png)")',page)

for link in linksList:

urls.append(link)

return urls

if __name__ == '__main__':

test_url = 'http://mclab.hufs.ac.kr/test/index.html'

imglist = get_urls(test_url)

print imglist

해당 test page의 url 로부터 페이지를 read하여 page라는 변수에 저장합니다.

(test_url은 특정 홈페이지로 설정하였습니다.)

이 때, 만약 print page를 하게 되면 test 페이지의 소스들이 전부 출력되는 것 또한 확인할 수 있습니다.

그리고 urls라는 list를 만들어서 이곳에 우리가 원하는 img 태그의 path를 저장하도록 합니다.

아래에서 re.findall 함수를 사용하여 이미지 태그를 찾고, 그에 대하여 gif, jpg, png 의 다양한 형식의 이미지 파일들에 대하여 모두 찾아서 추출할 수 있도록 해당식을 표현해주었습니다.

이후 for문안에서 urls.append를 사용해 찾은 img 정보들을 리스트에 더해주면 됩니다.

[Python2 IDLE shell 결과화면]

WRITTEN BY

티스토리툴바