내가 이글을 적는 이유는 웹사이트에 있는 특정 정보를 추출하기 위해 스크레이핑(Scraping)을 하기 위해서이다.
가장먼저 python 을 이용해서 다운로드 하는 부분을 알아보고 있다.
urllib.request 를 통해서 다운로드먼져..
다운로드 하기
urllib.request
파일로 저장:urlretrieve()
urlretrieve() 함수를 이용해서 파일을 직접 다운로드 할 수 있다.
웹상에 있는 jpg 파일을 download.jpg 로 저장하는 예
메모리로 저장 : urlopen()
urlopen() 함수를 이용해서 메모리에 저장할 수 있다.
웹상에 있는 jpg 파일을 메모리에 로드후 download2.jpg 로 저장하는 예
스크레이핑 하기(Scraping) 하기
BeautifulSoup
BeautifulSoup 은 HTML 과 XML 을 분석해주는 라이브러리 이다.
자세한 설명은 아래에서 https://www.crummy.com/software/BeautifulSoup/
pip를 이용해서 간단히 설치가 가능하다.
find()
요소추출
find_all()
여러요소추출
결과 <
사용예시
기상청에 있는 RSS 데이터를 이용해서 지역의 예보데이터를 가져오는 예제를 만들어 보겠다. 편의를 위해 지역명을 입력받는 형식으로 만든다.
기상청의 RSS 사이트는 아래 경로에서 확인 가능하다.
홈 > 날씨 > 생활과 산업 > 서비스 > 인터넷 > 웹
URL 은 아래와 같다. http://www.kma.go.kr/weather/lifenindustry/sevice_rss.jsp
충청남도
서울