본문 바로가기

코딩/기타

데이터 크롤링(네이버 코스피 가져오기)

반응형
import bs4
import requests

price_list = []
date_list = []

#제일 끝자리 696페이지에 해당하는 자료를 뽑기 위해서는 href를 뽑아와야 하는데 그게 너무 많음.
#그래서 그 위에 해당하는 td class = "pgRR"에 해당하는 정보를 뽑아옴

last_url = source.find_all('td',class_='pgRR')[0].find_all("a")[0]["href"]
#td class안에 href가 하나 더 있기 때문에 find_all을 두번 사용함

last_page = int(last_url.split('&page=')[-1])

for page_no in range(1, last_page+1):
    page_url = f'https://finance.naver.com/sise/sise_index_day.naver?code=KOSPI&page={page_no}'

    source = requests.get(page_url).text
    source = bs4.BeautifulSoup(source)
    
    dates = source.find_all("td",class_='date')
    
    for date in dates:
        date_list.append(date.text)

    prices = source.find_all("td",class_='number_1')
    
    for price in prices[::4]:
        price_list.append(price.text)
        
df.to_excel = ("kospi.xlsx", index = False)

출처 : 패스트캠퍼스 김용담 강사

 

코드 안돌아감

반응형

'코딩 > 기타' 카테고리의 다른 글

seaborn(lineplot, pointplot, barplot, heatmap, pairplot 등)  (1) 2023.03.19
엑셀 데이터 합치기  (0) 2023.03.19
데이터분석 입문(타이타닉)  (0) 2023.03.19
판다스(panda) 기본  (0) 2023.03.19
아나콘다 설치 오류(SSL)  (0) 2023.03.16