코딩/기타
데이터 크롤링(네이버 코스피 가져오기)
자본왕김민춘
2023. 3. 18. 07:22
반응형
import bs4
import requests
price_list = []
date_list = []
#제일 끝자리 696페이지에 해당하는 자료를 뽑기 위해서는 href를 뽑아와야 하는데 그게 너무 많음.
#그래서 그 위에 해당하는 td class = "pgRR"에 해당하는 정보를 뽑아옴
last_url = source.find_all('td',class_='pgRR')[0].find_all("a")[0]["href"]
#td class안에 href가 하나 더 있기 때문에 find_all을 두번 사용함
last_page = int(last_url.split('&page=')[-1])
for page_no in range(1, last_page+1):
page_url = f'https://finance.naver.com/sise/sise_index_day.naver?code=KOSPI&page={page_no}'
source = requests.get(page_url).text
source = bs4.BeautifulSoup(source)
dates = source.find_all("td",class_='date')
for date in dates:
date_list.append(date.text)
prices = source.find_all("td",class_='number_1')
for price in prices[::4]:
price_list.append(price.text)
df.to_excel = ("kospi.xlsx", index = False)
출처 : 패스트캠퍼스 김용담 강사
코드 안돌아감
반응형