안녕하세요
블레이즈 테크노트
블레이즈 입니다.
선형 회귀 모델의 기본
선형 회귀(Linear Regression) 모델은 데이터 사이의 선형적인 관계를 모델링하는 통계적 방법입니다.
이 모델은 독립 변수(X)와 종속 변수(Y) 사이의 관계를 선형 방정식으로 표현합니다.
가장 기본적인 형태인 단순 선형 회귀는 하나의 독립 변수를 사용하여 종속 변수의 값을 예측하는데,
이는 다음과 같은 수식으로 표현됩니다:
Y=β0+β1X+ϵ
여기서, Y는 예측하고자 하는 변수, X는 예측에 사용되는 변수, β0은 절편,
β1은 기울기(독립 변수가 종속 변수에 미치는 영향의 크기), 그리고 ϵ은 오차 항을 나타냅니다.
보통 단순 선형 회귀 모형의 수식은 다음과 같습니다.
운전 거리와 타이어 마모 정도 사이의 관계를 구하는 것이 단순 선형 회귀의 예시가 될 수 있습니다.
최소제곱법 (Least Squares Method)
최소제곱법은 관측된 데이터와 선형 회귀 모델에 의해 예측된 데이터 사이의
차이(오차)의 제곱합을 최소화하는 선을 찾는 방법입니다.
이를 통해 모델의 파라미터인 와 을 추정합니다.
최우추정법 (Maximum Likelihood Estimation, MLE)
최우추정법은 주어진 데이터가 관측될 가능성(우도)을 최대화하는 파라미터를 찾는 방법입니다.
이 방법은 복잡한 모델에서 파라미터를 추정할 때 유용하게 사용됩니다.
여튼 이렇게 하나의 x 값을 가지고 하나의 y값을 추정하는 것을 단순 선형 회귀라고 한다면
여러 개의 x를 가지고 하나의 y를 찾는 것이 다중 회귀 분석이라고 할 수 있습니다.
다중 회귀 분석 (Multiple Regression Analysis)
단순 선형 회귀가 하나의 독립 변수를 다루는 반면, 다중 회귀 분석은 여러 개의 독립 변수를 사용하여 종속 변수를 예측합니다.
이 경우, 모델의 수식은 다음과 같이 확장됩니다.
Y=β0+β1X1+β2X2+...+βnXn+ϵ
여러 독립 변수의 영향을 고려하기 때문에, 다중 회귀 분석은 복잡한 현실 세계의 데이터 패턴을 더 잘 포착할 수 있습니다.
다중 회귀 모델은 본격적으로 행렬계산을 활용하게 됩니다.
경사 하강법 (Gradient Descent)
경사 하강법은 비용 함수(cost function)의 기울기(경사)를 사용하여
파라미터를 점진적으로 조정해가며 최소화하는 최적화 기법입니다.
다중 회귀 분석에서 모델의 복잡성으로 인해 수학적으로 직접적인 해를 구하기 어려울 때 주로 사용됩니다.
사실 글로벌 옵티마인지는 확신할 수 없기는 하지만...
랜덤하게 몇몇 지점에서 경사하강법을 찾아서 로컬 옵티마를 찾으면
결과적으로 글로벌옵티마와 거의 유사한 값을 찾아낼 수 있습니다.
회귀 분석의 종류
- Ridge 회귀: 과대적합을 방지하기 위해 L2 정규화(파라미터의 제곱의 합에 대한 패널티)를 적용한 모델입니다.
- 큰 파라미터 값에 대해 패널티를 부여하여 모델의 복잡성을 줄입니다.
목적식은 다음과 같습니다.
- Lasso 회귀: L1 정규화(파라미터의 절댓값의 합에 대한 패널티)를 사용합니다.
- 이 방법은 불필요한 파라미터를 정확히 0으로 만들어 변수 선택의 효과가 있습니다.
Lasso 역시 비슷하긴 합니다만, 크기 제곱에 패널티를 주는 것이 아니라 절댓값으로 패널티를 줍니다.
목적식은 다음과 같습니다.
- Elastic Net: L1 정규화와 L2 정규화를 결합한 모델로, 변수 선택과 과대적합 방지의 장점을 동시에 가집니다.
Elastic Net의 경우 이 두가지를 모두 활용한 결과라고 할 수 있습니다.
Elastic Net은 L1, L2 정규화를 모두 사용해서 이상값의 영향을 최소화했습니다.
다음 포스팅에서는 이러한 모델들의 실습을 진행해보도록 하겠습니다.
감사합니다.
'머신러닝(Machine Learning)' 카테고리의 다른 글
머신러닝 실습: 회귀분석 연습2 (0) | 2024.02.29 |
---|---|
머신러닝 실습: 회귀분석 연습 1 (0) | 2024.02.28 |
머신러닝 기초_pandas, matplotlib.pyplot 활용하기 (0) | 2024.02.25 |
머신러닝 기초_numpy 활용하기 (0) | 2024.02.23 |
NLP BERT 모델 코드 스터디 리뷰 (0) | 2023.09.16 |