기계를 학습시키는 것. 데이터를 가장 잘 표현할 수 있는 모델을 찾는 것
학습: 데이터를 설명하는 가장 적합한 모델(함수)를 찾는 과정
파라미터: $y=ax^2+bx+c$ 등에서 a, b, c 와 같은 계수
비지도 학습
정답으로 제공되는 label 없이 데이터만 가지고 학습하는 방식. 숨겨진 구조, 패턴, 특징을 파악하는 데 중점을 둠
주로 Clustering 이나 PCA(차원 축소), 연관 규칙 학습(상관 관계) 등에 사용됨 이는 Machine Learning 이나 작동 방식을 쉽게 설명하고 시각화 할 수 있어 알고리즘으로 분류되기도 함
지도 학습
어떤 데이터가 어떤 값으로 나와야 한다라는 label을 가지고 학습하는 방식. 우리가 흔히 아는 LLM과 같은 Neural Network 기반 인공지능이 이와 비슷한 자기 지도 학습을 사용함 → 데이터 자체에서 label을 만들어 지도 학습처럼 작동하는 방식
노이즈에서 특정 이미지를 만들어내는 디퓨전 모델
입력된 인코딩 벡터에서 특정한 디코딩 벡터(입력→출력)을 내는 생성 모델
이미지를 보고 분류하고 어떤 객체인지 알아맞추는 Classification and Detection 모델
이는 MSELoss, BCELoss, RMSELoss, CrossEntropyLoss 와 같은 loss score를 경사하강법을 이용해 낮추는 방향으로 학습함.
학습하는 과정에서 평가 데이터 및 검증 데이터를 사용하면 안 된다. 평가 및 검증 데이터(Test and Valid Datasets)는 과적함 여부를 확인하고 최적의 하이퍼파라미터를 찾으려면 (학습에 사용되지 않아)모델이 모르는 데이터가 필요하다.
학습하는 과정에서 label을 주어선 안 된다. 모델이 컨닝을 하는 것과 같아서 특정 데이터만 잘 맞추는 과적합 모델을 형성한다. 다만, 거대하고 무거운 모델의 경우 학습 수렴 속도를 높이기 위해 조금 주기도 한다.
강화 학습
환경, 에이전트, 상태, 행동, 보상을 기반으로 함 에이전트가 최적의 행동을 학습해 누적된 보상을 최대화 하는 것이 목표.
에이전트의 행동마다 보상이 존재하며 보상이 최대화 되는 정책(함수, 모델)을 찾는 것
우리가 흔히 아는 LLM은 머신러닝의 하위 부분인 DeepLearning(DL)으로 분류됨.
DL도 ML의 한 종류이긴 하나, 편의상 구분하며, 이 문서에서는 다루지 않음
뉴럴 링크의 기초를 이루는 linear의 경우 선형 함수로, 아무리 쌓아도 이는 선형적이므로 복잡한 비선형 문제를 해결할 수 없다. 이를 해결하기 위해 linear를 쌓기 전에 각 층의 출력에 활성화 함수를 적용해 비선형성을 추가한다.