'Programming/Python'에 해당하는 글 9건

Python2를 이용하여 Web pageURL을 주면 base page(html)을 가져와서 image tag에 기술된 image file들의 path list를 만들어 보는 간단한 실습을 해보도록 하겠습니다.

(Python3 와 Python2는 문법 및 약간의 차이가 있다는 점이 있으나, 사용법은 거의 유사합니다.)


import re, urllib2 

def get_urls(url):

  response = urllib2.urlopen(url)

  page = response.read()

  #print page ->test페이지의 HTML 소스들이 전부 출력됩니다.

  urls = []

 

  linksList = re.findall('<img src=(.*?(gif|jpg|png)")',page)

  for link in linksList:

  urls.append(link)

  return urls

 

if __name__ == '__main__':

  test_url = 'http://mclab.hufs.ac.kr/test/index.html'

  imglist = get_urls(test_url)

  print imglist


해당 test pageurl 로부터 페이지를 read하여 page라는 변수에 저장합니다.

(test_url은 특정 홈페이지로 설정하였습니다.)

이 때, 만약 print page를 하게 되면 test 페이지의 소스들이 전부 출력되는 것 또한 확인할 수 있습니다.

그리고 urls라는 list를 만들어서 이곳에 우리가 원하는 img 태그의 path를 저장하도록 합니.

아래에서 re.findall 함수를 사용하여 이미지 태그를 찾고, 그에 대하여 gif, jpg, png 의 다양한 형식의 이미지 파일들에 대하여 모두 찾아서 추출할 수 있도록 해당식을 표현주었습니다.

이후 for문안에서 urls.append를 사용해 찾은 img 정보들을 리스트에 더해주면 됩니다.


[Python2 IDLE shell 결과화면]


'Programming > Python' 카테고리의 다른 글

Sorting(4) Selection Sort(선택 정렬)  (0) 2016.10.27
Sorting(3) Insertion Sort(삽입 정렬)  (0) 2016.10.27
Sorting(2) Quick Sort(퀵 정렬)  (0) 2016.10.27
Sorting(1) Bubble Sort(버블 정렬)  (0) 2016.10.27
Python2 설치  (0) 2016.05.14

WRITTEN BY
SiriusJ

,