본문 바로가기

데이터 청년 캠퍼스(경남대학교)

(25)
2021-07-19 Wine Quality 분류 예측 클래스 불균형 데이터 클래스 불균형 기법을 이해하고 Accuracy 향상 import pandas as pd import numpy as np # 한글 폰트 적용 import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus']=False path='c:/Windows/Fonts/malgun.ttf' font_name=font_manager.FontProperties(fname=path).get_name() rc('font',family=font_name) wine = pd...
2021-07-15 서울 연립다세대 매매 linear regression import pandas as pd import numpy as np # 한글 폰트 적용 import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus']=False path='c:/Windows/Fonts/malgun.ttf' font_name=font_manager.FontProperties(fname=path).get_name() rc('font',family=font_name) import os path = 'C:/Users/박연재/Desktop/데..
2021-07-14 인스타그램 해시태그 정보 수집 from bs4 import BeautifulSoup from selenium import webdriver import time import math import os import random import unicodedata # 인스타그램의 해시태그 수집 중 자음/모음 분리현상 방지용 모듈 #Step 2. 사용자에게 필요한 정보들을를 입력 받습니다. print("=" *70) print(" 이 크롤러는 인스타그램의 해시태그 정보를 수집합니다") print(" 본 제품은 서진수가 교육용으로 특별 제작했으며 ") print(" 용도외의 사용으로 저작권을 침해하는 행위는 불법입니다") print(" 본 제품에 대한 문의는 seojinsu@gmail.com 으로 보내주세요~^^..
2021-07-13 네이버 블로그 크롤링하기 #Step 1. 필요한 모듈을 로딩합니다 from selenium import webdriver import time #Step 2. 사용자에게 검색 관련 정보들을 입력 받습니다. print("=" *100) print(" 연습문제 6-5: 블로그 크롤러 : 여러건의 네이버 블로그 정보 추출하여 저장하기") print("=" *100) query_txt = input('1.크롤링할 키워드는 무엇입니까?(예: 여행): ') include = input('2. 결과에서 반드시 포함하는 단어를 입력하세요(예: 국내, 바닷가)\n(여러개일 경우 , 로 구분해서 입력하고 없으면 엔터 입력하세요): ') in_li =include.split(',') exclude = input('3. 결과..
2021-07-12 Crawler 데이터의 종류 정형데이터 : 표 형태의 데이터 비정형데이터 : 표 형태가 아닌 데이터(ex. 사진, 동영상) 데이터를 어떻게 모을 것인가? 가설을 설정한 후 데이터를 수집한다 회사 내에 있는 자료는 대부분 정형 데이터인데 정형 데이터로만 해결할 수 있는 문제는 드물다 웹 크롤링은 인터넷에 있는 자료를 가져오는 것임 Selenium : 웹 페이지의 모든 데이터를 가져옴 Beautiful Soup : 셀레늄 전체 데이터에서 원하는 데이터만 추출 설치 %pip install chromedriver_autoinstaller import chromedriver_autoinstaller chromedriver_autoinstaller.install( ) from selenium import webdr..
2021-07-12 크롤러 cmd창에서 pip install selenium pip install chrome-autoinstaller 파이썬 IDLE창에서 import chromedriver_autoinstaller chromedriver_autoinstaller.installer() 주피터에서 %pip install chromedriver_autoinstaller import chromedriver_autoinstaller chromedriver_autoinstaller.install( ) from selenium import webdriver driver= webdriver.Chrome() 멜론차트 크롤링하기 # 멜론에서 멜론차트 크롤링하기 #Step 1. 필요한 모듈을 로딩합니다 from selenium import..
2021-07-09 프로젝트 설명 한국연구재단 식수예측프로젝트 정보통신기획평가원? 월요일이 가장 많고 금요일이 가장 적음 겨울 인원이 많고 덥고 습한 날은 중간 봄 가을은 적음 식사인원 = 출근인원+월+요일+날씨+오차 데이터 누적량이 적음, 프로그램의 정확도 떨어짐, 원가절감 구내식당 식사인원 예측 성공 = 식사인원 데이터 분석 + 행사정보 + 직원 입맛 파악 통계분석 요일별, 월별 추이 상관계수가 높은 것을 사용 알고리즘 : linear regression / SVM / Lightgbm 목표? ****데이터를 가지고 프로그램을 업그레이드 하는 것**** 연휴때의 식사인원 결측치는 어떻게 처리? 이벤트(창립기념일) 출근인원 >>>일반 함수에 넣으면 틀어짐 예측함수 :출근 식사인원 등 과거 3년 값..
2021 - 07 - 07 판다스 책 공부하기 정규화부터~ import pandas as pd import numpy as np df = pd.read_csv('auto-mpg.csv',header= None) df.columns = ['mpg','cylinders','displacement','horsepower','weight', 'acceleration','model year','origin','name'] df['horsepower'].replace('?',np.nan, inplace = True) df.dropna(subset=['horsepower'],axis=0,inplace=True) df['horsepower'] = df['horsepower'].astype('float') print(df.horsepower.de..