본문 바로가기

반응형

코딩

(89)
[코딩] Neighbors 도미와 빙어 전처리 후 구분(혼자 공부하는 머신러닝 딥러닝) 목차 1. 문제 및 데이터 2. 코드작성 3. 코드풀이(1)- 데이터 전처리 4. 코드풀이(2)- 데이터 전처리 후 5. 참고 column_stack(), concatenate() 문제 : length가 25, weight가 150인 물고기가 도미인지 빙어인지 구분 데이터(도미와 송어의 길이와 무게) #데이터 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0..
[파이썬] 혼자 공부하는 데이터 분석(06 데이터표현, 07 검증,예측) #1. top30_pubs의 선그래프 5개를 for문을 이용하여 그리기, x축 연도 1985~2025년도 설정, 객체지향 API fig, ax = plt.subplots(figsize = 8,6)) for pub in top30_pubs.index[:5]: line = ns_book9[ns_book9['출판사'] == pub] ax.plot(line['발행년도'], line['대출건수'], label = pub) ax.set_title('연도별 대출건수') ax.set_xlim(1985, 2025) fig.show() #2. 하나의 피겨에 2개의 막대그래프, 겹치지 않게('발행년도', '대출건수'열의 '황금가지', 비룡소' 데이터) fig, ax = plt.subplots(figsize = (8,6)) ..
[파이썬] 혼자 공부하는 데이터 분석(03-2 잘못된 데이터 수정하기) #1 ns_book4 정보확인 #2 ns_book4 누락된 개수 보기 #3 '도서권수'열의 0행을 nan으로 지정하고 확인 #4 다시 1로 바꾸고 '도서권수, 대출건수'를 int형으로 바꾸기 #5 ns_book4의 '부가기호'의 NaN을 '없음'문자열로 변환 #6 replace를 이용하여 nan을 '없음'으로 변경 #7 nan을 없음, 2021을 21로 변경 #8 '부가기호'열의 nan을 '없음'으로 변경 #9 2개 열('부가기호', '발행년도')을 2개 새로운 값으로 변환(nan을 없음, 2021을 21) #10 정규표현식을 이용하여 '발행년도'열의 2021을 21로 #11 '저자'열의 (지은이), (옮긴이) 삭제, #12 '발행년도'의 '1988'이 포함된 모든 문자열의 행을 찾고, #13 [2019..
웹스크래핑(교보문고 ISBN으로 쪽수 가져오기) 혼자 공부하는 데이터 분석 p.124 웹 스크레핑 import requests from bs4 import BeautifulSoup def get_page_cnt(isbn): url = 'http://www.yes24.com/product/search?domain=BOOK&query={}' r = requests.get(url.format(isbn)) soup = BeautifulSoup(r.text, 'html.parser') prd_info = soup.find('a',attrs = {'class':'gd_name'}) url = 'http://www.yes24.com' + prd_info['href'] r = requests.get(url) soup = BeautifulSoup(r.text, 'ht..
머신러닝 알고리즘 익히기(Logistic Regression, Random Forest, Gradient Boosting, Light GBM), import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline #노트북안에서 바로 그래프를 출력하여 보여줌 import warnings warnings.filterwarnings('ignore') #데이터 불러오기 datapath = 'https://github.com/mchoimis/tsdl/raw/main/income/' df = pd.io.parsers.read_csv(datapath + 'income.csv') df.head() # 데이터 형태 확인 print(df.shape) print(df.columns) df.info() # 결측치(NA, 없는 값)를 Na..
파이썬, openpyxl(6) 수식작성, 병합, 이미지삽입 #수식작성, 저장하기 import datetime from openpyxl import Workbook wb = Workbook() ws = wb.active ws["A1"] = datetime.datetime.today() ws["A2"] = "=SUM(1,2,3)" ws["A4"] = 10 ws["A5"] = 20 ws["A6"] = "=average(A4:A5)" wb.save("./Desktop/코딩공부/sample.xlsx") from openpyxl import Workbook wb = Workbook() ws = wb.active #수식작성, 불러오기 from openpyxl import load_workbook wb = load_workbook("./Desktop/코딩공부/sample.xl..
네이버 쇼핑 웹 크롤링 출처 : 패스트캠퍼스 김용담 강사 import requests import bs4 import pandas as pd from selenium.webdriver.common.by import By import time from tqdm.notebook import tqdm #프로세스바 import warnings warnings.simplefilter('ignore') query = "삼성" titles = [] prices = [] review_counts = [] buy_counts = [] published_dates = [] favorites = [] driver = Chrome('./chromedriver') for page_no in tqdm(range(1, 3)): #페이지 수 1~2페이지 ..
plotly 사용 예시(그래프) histogram import plotly.express as px df = px.data.tips() fig = px.histogram(data_frame=df, x="total_bill", nbins=30, #가로 범위 color = "sex") #seaborn에서 hue와 같다. 성별 2종류로 구분하여 표현 fig.show() #show를 해야 표현 가능 import plotly.express as px df = px.data.tips() fig = px.box(df, x="day", y="total_bill", color="smoker", notched=True) fig.show() ganttchart(프로젝트 일정관리) # gantt chart import plotly.express as px ..

반응형