본문 바로가기
Artificial Intelligence

선형 회귀 분석(Linear Regression Analysis)

by 테리는당근을좋아해 2021. 5. 1.

회귀 분석(Regression Analysis)

관측된 연속형 데이터에 대해 데이터 사이의 관계를 모델링하고 분석하는 기법

 

 

1) 회귀 분석 분류

2) 단순 회귀 분석 (단변량 회귀 분석, Simple Regression Analysis)

- 종속 변수를 예측하기 위한 독립 변수가 하나

 

 

3) 다중 회귀 분석 (다변량 회귀 분석, Multiple Regression Analysis)

- 종속 변수를 예측하기 위한 독립 변수가 둘 이상

 

 

4) 선형 회귀 분석 (Linear Regression Analysis)

- 종속 변수 y와 한 개 이상의 독립 변수(설명 변수) X와의 선형 상관 관계를 모델링하는 분석 기법
- 종속 변수와 하나 이상의 독립변수를 선형으로 가정하고 이를 가장 잘 설명할 수 있는 회귀 계수(Regression Coefficient)를 추정

 

 

 

선형 회귀 분석(Simple Linear Regression Analysis)

 

1) 단순 선형 회귀 분석 (Simple Liner Regression Analysis)

- 종속변수를 예측하기 위한 독립변수가 하나

- 두 변수 간 선형적인 관계를 가진다는 것을 가정하고 이를 가장 잘 설명할 수 있는 회귀 계수(Regression Coefficient)를 찾아야함

 

$y = b + Wx $

- 머신러닝의 관점에서 W는 가중치(Weight) 또는 기울기, b는 편향(bias)는 종속변수 y의 절편 으로 표현

 

$y = \beta_{0} + \beta_{1}x_{1} + \epsilon $

- 통계학 관점에서 상관계수 $ \beta_{0} $ (종속변수의 절편), $ \beta_{1} $ (기울기)와 Noise $ \epsilon $으로 표현 

 

$y_{i} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{1} $

- 통계학 관점에서 표본집단을 이용해 모집단의 선형적 관계를 표현할 수 있는 상관계수를 추정

 

 

 

2) 다중 선형 회귀 분석 (Multiple Liner Regression Analysis)

- 종속변수를 예측하기 위한 독립변수가 하나

- 두 변수 간 선형적인 관계를 가진다는 것을 가정하고 이를 가장 잘 설명할 수 있는 회귀 계수(Regression Coefficient)를 찾아야함

 

$y = b + W_{0}x_{0} + W_{1}x_{1} + ... + W_{n}x_{n} $

- 머신러닝 관점에서 $W_{0}, ... , W_{n} $는 가중치(Weight) 또는 기울기, b는 편향(bias)는 종속변수 y의 절편 으로 표현

 

$y = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ... + \beta_{n}x_{n} + \epsilon $

- 통계학 관점에서 상관계수 $ \beta_{0} $ (종속변수의 절편), $ \beta_{1}, ... , \beta_{n} $ (기울기)와 Noise $ \epsilon $으로 표현 

 

$y_{i} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{1} + \hat{\beta_{2}}x_{2} + ... + \hat{\beta_{n}}x_{n} $

- 표본집단

 

 

3) 회귀 모형에서의 노이즈(Noise)란?

$y = f(x) + \epsilon $ 

- 데이터 생성 및 수정과정에서 발생할 수 있는 여러 원인들에 의해 발생하는 변동성

 

 

4) 최소 자승법 또는 최소 제곱법(OLS, Ordinary Least Squares 또는 LSM, Least Squares Method)

$min( \sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2} )$

- 추정된 회귀식에 의해 결정된 값과 실제값의 오차 제곱항의 차이를 최소화

 

 

(1) matrix를 이용한 해 구하기

matrix $ x : n \times (d + 1) $ 

vector $ y : n \times 1 $

vector $ \hat{\beta} : (d + 1) \times 1 $

관측된 데이터

matrix x의 1은 상수항을 처리하기위한 요소로 $\beta_{0} $에 해당

 

$ E(x) = \frac{1}{2}{(y - x\hat{\beta})}^{T} (y - x\hat{\beta}) $

 

$ \frac{\partial E(x)}{\partial\hat{\beta}} = -x^{T}(y - x\hat{\beta}) = 0 $

 

$-x^{T}y = x^{T}+x^{T}x\hat{\beta} $

 

$\hat{\beta} = (x^{T} x)^{-1} x^{T} y $

 

-> 회귀 계수 $\beta $에 대한 closed form solution을 도출할 수 있음

 

 

(2) 최소자승법으로 구한 회귀계수 $\beta $ 가 최적해가 될 수 있는 조건

- 오차항 $ \epsilon $이 정규분포를 따르고 homoskedasticity(동분산성)을 만족

- 종속변수와 독립변수 사이에 선형관계가 성립

- 각 관측치는 서로 독립

 

댓글