반응형
import bs4
import requests
price_list = []
date_list = []
#제일 끝자리 696페이지에 해당하는 자료를 뽑기 위해서는 href를 뽑아와야 하는데 그게 너무 많음.
#그래서 그 위에 해당하는 td class = "pgRR"에 해당하는 정보를 뽑아옴
last_url = source.find_all('td',class_='pgRR')[0].find_all("a")[0]["href"]
#td class안에 href가 하나 더 있기 때문에 find_all을 두번 사용함
last_page = int(last_url.split('&page=')[-1])
for page_no in range(1, last_page+1):
page_url = f'https://finance.naver.com/sise/sise_index_day.naver?code=KOSPI&page={page_no}'
source = requests.get(page_url).text
source = bs4.BeautifulSoup(source)
dates = source.find_all("td",class_='date')
for date in dates:
date_list.append(date.text)
prices = source.find_all("td",class_='number_1')
for price in prices[::4]:
price_list.append(price.text)
df.to_excel = ("kospi.xlsx", index = False)
출처 : 패스트캠퍼스 김용담 강사
코드 안돌아감
반응형
'코딩 > 기타' 카테고리의 다른 글
seaborn(lineplot, pointplot, barplot, heatmap, pairplot 등) (1) | 2023.03.19 |
---|---|
엑셀 데이터 합치기 (0) | 2023.03.19 |
데이터분석 입문(타이타닉) (0) | 2023.03.19 |
판다스(panda) 기본 (0) | 2023.03.19 |
아나콘다 설치 오류(SSL) (0) | 2023.03.16 |