오늘은 빅데이터와 인공지능에 대한 정리!
빅데이터
- 정의
- 좁은 범위의 정의
- V3
- Volume(양)
- Variety(다양성)
- Velocity(속도)
- + V4
- Value (가치)
- Visualization (시각화)
- Veracity (정확성)
- V3
- 중간 범위의 정의
- 데이터 자체 뿐만 아니라 처리, 분석 기술적 변화까지 포함
- 넓은 범위의 정의
- 인재, 조직 변화까지 포함
- 좁은 범위의 정의
- 빅데이터를 활용한 기술
- 연관규칙학습
- 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
- 군집분석
- 문서를 분류하거나 조직을 그룹으로 나눌 때 또는 수강생들을 특성에 따라 분류할 때 등의 경우에 사용
- 유전자 알고리즘
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 기계학습
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
- 회귀분석
- 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변수의 관계를 파악할 때 사용
- 감정분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 소셜네트워크분석
- 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용
- 연관규칙학습
인공지능
- 인공지능(Artificial Intelligence)
- 정의
- 지능(Intelligence)을 인공적(Artificial)으로 만들어 낸 것
- 인간의 인지, 추론, 학습의 사고 과정에 필요한 능력을 컴퓨터 시스템을 통해 구현함으로써 문제를 해결할 수 있는 기술
- 사례 : 알파고
- 바둑판의 선과 흰 돌, 검은 돌을 구분(=인지)
- 규칙을 ‘이해’하고 상대방이 어떤 식으로 바둑알을 두는지 ‘추론’하고 어디에 바둑알을 두어야 할 지 ‘판단’하는 과정을 스스로 할 수 있는 알고리즘을 만들어낸 것
- 알파고(=컴퓨터)에게 바둑을 두는 방법(=지능)을 알려준 것.
- 단계
- 약인공지능
- 특정한 작업을 수행하는 데 집중하는 인공지능
- 문제해결
- 날씨 예측, 음성 인식, 사진 얼굴 인식 등
- 강인공지능
- 컴퓨터에 인간과 동일한 수준의 지성을 구현하고자 하는 시도
- 인간처럼 이해하고 배우고 적응하여 다양한 상황에서 유연하게 대처하는 인공지능
- 약인공지능
- 정의
- 머신러닝(Machine Learning)
- 정의
- 컴퓨터가 스스로 지능을 만드는 것
- 컴퓨터가 수많은 데이터를 스스로 학습하고 알고리즘을 통해 학습의 결과를 도출하는 방법
- 특징
- 수학, 통계 기반의 알고리즘을 사용하여 숨겨진 규칙을 발견함
- 학습 방법
- 지도학습
- 문제와 정답을 모두 알려주고 학습시키는 방법
- 레이블(정답)이 있는 학습 데이터를 이용한 머신러닝 방법
- 레이블이 달린 데이터의 확보가 된 이후에 비로소 학습이 가능함
- 학습을 위한 데이터를 확보하는 작업에 많은 리소스 투입이 필요
- 데이터가 확보되면 학습 결과가 좋음
- 비지도학습
- 문제만 알려주고 학습시키는 방법
- 레이블(정답)이 없는 학습 데이터를 이용한 머신러닝 방법
- 레이블이 없는 데이터를 학습 데이터로 활용하고, 컴퓨터가 스스로 특징을 찾아내는 방식
- 분석 결과에 대해 사람이 다시 한 번 살펴보고 분석하는 작업이 필요함
- 데이터를 같은 그룹으로 구분하는 군집이나 데이터 간의 연관성을 판단하는 연관분석을 할 때 주로 활용
- 반지도학습(=준지도학습)
- 레이블(정답)이 있는 데이터와 없는 데이터를 모두 학습에 사용하는 것
- 레이블이 없는 데이터에 적은 양의 레이블이 있는 데이터를 사용할 경우 학습 정확도 향상을 기대할 수 있음
- 강화학습
- 학습에 대한 결과를 보상(Reward)를 통해, 보상은 최대화, 벌은 최소화 하는 방향으로 행위를 강화시키는 학습 방법
- 행동에 대해 보상 또는 벌을 받는 경험을 쌓아 지식을 키워나가는 머신러닝 방법
- 알파고에 사용됨
- 지도학습
- 정의
- 딥러닝
- 정의
- 사람이 지능을 생성해가는 방식을 좀 더 고도화시켜서 사람처럼 학습하는 머신러닝을 진행하는 것
- 고도화된 신경망 알고리즘을 적용하여 보다 빠르고 인간과 유사하게 행동하는 컴퓨터 프로그램을 구현한 학습 방법
- 용어(by. 민준튜터님)
- Neuron(뉴런)
- 신경망의 기본 단위로 입력을 받아 가중치를 적용하고 활성화 함수를 통해 출력을 생성
- Layer(층)
- 뉴런들이 모여있는 층으로 보통 입력층(Input Layer), 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성됩니다.
- Weight(가중치) 뉴런에서 다음 뉴런으로 넘길 때 중요도(가중치)를 적용하기 위한 매개변수입니다.
- 이 가중치가 왜 중요하냐면 가중치에 따라 결과가 달라져요. 옳바른 학습을 많이 시킬수록 더 정교한 가중치가 만들어집니다.
- Model(모델) 보통 인공지능 분야에서 모델이라고 하면 어떤 AI나 신경망 등 대상체를 의미해요. 단어 사용 예시: 수강생 딥러닝 모델, 수강생 숙제 시키는 인공지능 모델
- Neuron(뉴런)
- 인공 신경망(ANN; Artificial Neural Network)
- 은닉층을 구성하는 각 노드의 최적의 가중치를 찾아가는 과정
- 각 노드의 가중치 값은 역전파(Back Propagation)을 통해 구할 수 있음
- 학습 과정에서 최적의 파라미터 값을 찾기 어려우며 학습 시간이 느림
- 과적합 문제가 있을 수 있음
- 심층 신경망(DNN; Deep Neural Network)
- 입력층과 출력층 사이의 은닉층을 2개 이상 지닌 인공신경망
- 컴퓨터가 스스로 분류 레이블을 만들어 내고 공간을 왜곡하고 데이터를 구분짓는 과정을 반복하여 최적을 도출해내는 것
- 합성곱 신경망(CNN; Convolution Neural Network)
- 이미지에 포함된 객체를 인식하거나, 이미지를 처리하는 데 우수한 성능을 보이는 신경망
- 컨볼루션 계층과 풀링 계층으로 이루어짐
- 컨볼루션 계층 : 주어진 데이터의 특징을 추출하는 역할을 하는 계층
- 풀링 계층 : 연산 결과를 요약하는 역할을 하는 계층
- 데이터의 특징을 찾는 데 효과적인 연산을 수행함
- 순환 신경망(RNN; Recurrent Neural Network)
- 이전에 저장해 놓은 값을 이용하여 연속적인 데이터를 학습하는 인공신경망
- 은닉층의 가중치를 순환하여 다시 참조하는 형태로 연산을 수행하는 인공신경망
- 데이터의 순서를 고려한 연산을 수행할 수 있는 구조
- 현재 입력된 데이터를 분석할 때 과거에 입력된 데이터도 함께 고려할 수 있음
- 발전된 모델 → LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit)
- 대형 언어 모델(LLM; Large Language Model)
- 자연어를 처리하고 이해하는 것
- 다양한 질문과 프롬프트 메세지에 대해 일관된 응답을 생성하며 맥락에 부합하는 모델
- 예시
- ChapGPT
- New Beign - microsoft
- Bard - google
- 정의
간략하게 정리한다고 했는데도 내용이 많다,,,
깊은 빅데이터와 인공지능의 세계,,,
'[내일배움캠프]스파르타코딩클럽 AI 웹개발 > Today I Learned' 카테고리의 다른 글
[내일배움캠프 29일차 TIL] SQL - NULL (0) | 2024.08.01 |
---|---|
[내일배움캠프 28일차 TIL] 소프트웨어 문서 (0) | 2024.07.31 |
[내일배움캠프 26일차 TIL] 프로토콜 (0) | 2024.07.29 |
[내일배움캠프 25일차 TIL] 소프트웨어 설계 (0) | 2024.07.26 |
[내일배움캠프 24일차 TIL] 컴퓨터 구조와 운영체제 (0) | 2024.07.25 |