Python2를 이용하여 Web page의 URL을 주면 base page(html)을 가져와서 image tag에 기술된 image file들의 path list를 만들어 보는 간단한 실습을 해보도록 하겠습니다.
(Python3 와 Python2는 문법 및 약간의 차이가 있다는 점이 있으나, 사용법은 거의 유사합니다.)
import re, urllib2 def get_urls(url): response = urllib2.urlopen(url) page = response.read() #print page ->test페이지의 HTML 소스들이 전부 출력됩니다. urls = []
linksList = re.findall('<img src=(.*?(gif|jpg|png)")',page) for link in linksList: urls.append(link) return urls
if __name__ == '__main__': test_url = 'http://mclab.hufs.ac.kr/test/index.html' imglist = get_urls(test_url) print imglist |
해당 test page의 url 로부터 페이지를 read하여 page라는 변수에 저장합니다.
(test_url은 특정 홈페이지로 설정하였습니다.)
이 때, 만약 print page를 하게 되면 test 페이지의 소스들이 전부 출력되는 것 또한 확인할 수 있습니다.
그리고 urls라는 list를 만들어서 이곳에 우리가 원하는 img 태그의 path를 저장하도록 합니다.
아래에서 re.findall 함수를 사용하여 이미지 태그를 찾고, 그에 대하여 gif, jpg, png 의 다양한 형식의 이미지 파일들에 대하여 모두 찾아서 추출할 수 있도록 해당식을 표현해주었습니다.
이후 for문안에서 urls.append를 사용해 찾은 img 정보들을 리스트에 더해주면 됩니다.
[Python2 IDLE shell 결과화면]
'Programming > Python' 카테고리의 다른 글
Sorting(4) Selection Sort(선택 정렬) (0) | 2016.10.27 |
---|---|
Sorting(3) Insertion Sort(삽입 정렬) (0) | 2016.10.27 |
Sorting(2) Quick Sort(퀵 정렬) (0) | 2016.10.27 |
Sorting(1) Bubble Sort(버블 정렬) (0) | 2016.10.27 |
Python2 설치 (0) | 2016.05.14 |
WRITTEN BY