본문 바로가기

데이터 청년 캠퍼스(경남대학교)/수업

(7)
2021-07-12 Crawler 데이터의 종류 정형데이터 : 표 형태의 데이터 비정형데이터 : 표 형태가 아닌 데이터(ex. 사진, 동영상) 데이터를 어떻게 모을 것인가? 가설을 설정한 후 데이터를 수집한다 회사 내에 있는 자료는 대부분 정형 데이터인데 정형 데이터로만 해결할 수 있는 문제는 드물다 웹 크롤링은 인터넷에 있는 자료를 가져오는 것임 Selenium : 웹 페이지의 모든 데이터를 가져옴 Beautiful Soup : 셀레늄 전체 데이터에서 원하는 데이터만 추출 설치 %pip install chromedriver_autoinstaller import chromedriver_autoinstaller chromedriver_autoinstaller.install( ) from selenium import webdr..
2021-07-09 프로젝트 설명 한국연구재단 식수예측프로젝트 정보통신기획평가원? 월요일이 가장 많고 금요일이 가장 적음 겨울 인원이 많고 덥고 습한 날은 중간 봄 가을은 적음 식사인원 = 출근인원+월+요일+날씨+오차 데이터 누적량이 적음, 프로그램의 정확도 떨어짐, 원가절감 구내식당 식사인원 예측 성공 = 식사인원 데이터 분석 + 행사정보 + 직원 입맛 파악 통계분석 요일별, 월별 추이 상관계수가 높은 것을 사용 알고리즘 : linear regression / SVM / Lightgbm 목표? ****데이터를 가지고 프로그램을 업그레이드 하는 것**** 연휴때의 식사인원 결측치는 어떻게 처리? 이벤트(창립기념일) 출근인원 >>>일반 함수에 넣으면 틀어짐 예측함수 :출근 식사인원 등 과거 3년 값..
2021 - 07 - 02 오늘은 특강 4차 산업혁명이 무엇인가? 일단 혁명과 혁신의 차이점이대해서 간단하게 혁명은 바꾸는거 혁신은 있는 것에서 발전시키는 것 지금까지 산업혁명은 1. 농업혁명 - 정착생활로 문화 발생 2. 산업혁명 - 증기기관의 사용, 대량생산 시작(단가가 낮아짐) 3. 정보혁명 - 인터넷 4. 인공지능(AI) 혁명 정보혁명과 인공지능 혁명의 차이점은? 판단과 결정의 차이! 시대가 흘러가면서 변하는 것과 변하지 않는 것이 있는데 변하는 것 : 기술과 지식, 관점과 문화, 자원의 밀도 변하지 않는 것 : 자연의 본성, 인간이 편리함을 추구하는 것 시민들이 원하는 것은 1. 기술이 아니라 생활의 변화를 원함 2. 내가 직접 체감할 수 있는 변화를 원함 4차 산업혁명의 핵심은 인공지능 혁명이다! 인공지능의 3요소는 알..
2021-07-01 (2) 데이터 크롤링 !pip install selenium #selenium 설치 from selenium import webdriver driver = webdriver.Chrome('C:\data\chromedriver') #크롬... 가상의 창에서 작업 driver.get('http://naver.com') #네이버 사이트에서 활용하기! 네이버 사이트에서 로그인하는 크롤링을 할 예정! xpath='//*[@id="account"]' driver.find_element_by_xpath(xpath).click() 네이버 메인화면에서 로그인을 클릭하는 작업을 하는 코드 xpath를 통해 작업 수행 elem_login = driver.find_element_by_id('id') elem_login.clear()..
2021-07-01 (1) '다나와' 사이트의 데이터 사용 import pandas as pd #엑셀 데이터 불러오기 data = pd.read_excel('danawa_data.xlsx') #비어있는 값이 있나 확인 data.isnull().sum() 사용시간에 23개 흡입력에 112개 비어있는 값이 있음 top_list = data.sort_values(['사용시간','흡입력'], ascending = False) top_list.head() 사용시간과 흡입력이 높은 순서대로 정렬? #평균값 정리 price_mean = data['가격'].mean() suction_mean = data['흡입력'].mean() use_time_mean = data['사용시간'].mean() print("가격 평균값", price_mean) p..
2021-06-29 a = ['a','b','c'] a.append('d') a.append('e','f') #두 개 넣으면 오류뜸 a.append('e':'f') #여기도 오류 어제 배웠던거 잠시 복습하고 리스트와 딕셔너리에 대해 배움 a = [1, 2, 'abc', [3, 4, 'list']] 리스트는 다른 언어의 배열과 달리 다양한 데이터타입이 섞여있어도 무방함 또한 리스트 안에 리스트가 있는 것도 가능함 a[2] 위와 같이 리스트는 인덱스를 사용해서 출력하는 것이 일반적임 a[3][2] 이차원 형태를 사용해서 배열 안의 배열에서 추출할 수 있음 리스트는 안의 요소?를 초기화하는 것도 가능함 a = 'li,fe is, to,o sh,ort' li = a.split(',') li[2] = 'two' 위와같이 리스트는 유..
2021-06-28 파이썬 기초 #f 포메팅 name = 'hong' age = 24 print('name is %s age is %d', name, age) #이건 c언어 하는 방식 이렇게 작성해서 출력하면 원하는대로 출력이 안됨 파이썬에서 c언어와 같은 방식을 사용하고싶다면 print('name is %s age is %d' %(name, age)) #파이썬을 c언어처럼 작성하는거 이렇게 작성을 해 줘야 함 그런데 파이썬은 파이썬 만의 방식이 있음 f포메팅! print('name is {0} age is {1} name{0}' .format(name, age)) 중괄호와 인덱스를 사용해서 하는 방법 이렇게 사용하면 여러번 사용이 가능하다는 장점이 있음 비슷하지만 약간 다른 방법도 있음 print(f'name is {na..