본문 바로가기

코딩/Python

웹스크래핑(교보문고 ISBN으로 쪽수 가져오기)

반응형

혼자 공부하는 데이터 분석 p.124

웹 스크레핑

import requests
from bs4 import BeautifulSoup

def get_page_cnt(isbn):
  url = 'http://www.yes24.com/product/search?domain=BOOK&query={}'
  r = requests.get(url.format(isbn))
  soup = BeautifulSoup(r.text, 'html.parser')
  prd_info = soup.find('a',attrs = {'class':'gd_name'})
  url = 'http://www.yes24.com' +  prd_info['href']
  r = requests.get(url)
  soup = BeautifulSoup(r.text, 'html.parser')
  prd_detail = soup.find('div', attrs = {'id':'infoset_specific'}) 
  prd_tr_list = prd_detail.find_all('tr')
  for tr in prd_tr_list:
   if tr.find('th').get_text() == '쪽수, 무게, 크기':
     return tr.find('td').get_text().split()[0]
  return ''   
get_page_cnt(9791190090018)
반응형