코딩/기타

데이터 크롤링(네이버 코스피 가져오기)

자본왕김민춘 2023. 3. 18. 07:22
반응형
import bs4
import requests

price_list = []
date_list = []

#제일 끝자리 696페이지에 해당하는 자료를 뽑기 위해서는 href를 뽑아와야 하는데 그게 너무 많음.
#그래서 그 위에 해당하는 td class = "pgRR"에 해당하는 정보를 뽑아옴

last_url = source.find_all('td',class_='pgRR')[0].find_all("a")[0]["href"]
#td class안에 href가 하나 더 있기 때문에 find_all을 두번 사용함

last_page = int(last_url.split('&page=')[-1])

for page_no in range(1, last_page+1):
    page_url = f'https://finance.naver.com/sise/sise_index_day.naver?code=KOSPI&page={page_no}'

    source = requests.get(page_url).text
    source = bs4.BeautifulSoup(source)
    
    dates = source.find_all("td",class_='date')
    
    for date in dates:
        date_list.append(date.text)

    prices = source.find_all("td",class_='number_1')
    
    for price in prices[::4]:
        price_list.append(price.text)
        
df.to_excel = ("kospi.xlsx", index = False)

출처 : 패스트캠퍼스 김용담 강사

 

코드 안돌아감

반응형