본문내용
1. 서론
1.1. 회귀모형 개요
회귀모형은 두 변수 간의 관계를 파악하고자 할 때 사용되는 통계적 분석 기법이다. 독립변수와 종속변수 간의 선형관계를 통해 종속변수의 값을 예측하거나 설명할 수 있다. 단순회귀분석은 독립변수가 1개인 경우이고, 다중회귀분석은 2개 이상의 독립변수가 있는 경우이다. 회귀모형은 실제 데이터의 변동을 얼마나 잘 설명하는지를 나타내는 결정계수(R^2)와 전체 모형의 유의성을 검정하는 F-검정, 개별 독립변수의 유의성을 검정하는 t-검정 등을 통해 평가된다. 또한 회귀모형의 기본 가정인 선형성, 등분산성, 정규성, 독립성 등이 충족되어야 하며, 잔차 분석을 통해 이를 진단할 수 있다. 회귀모형은 다양한 분야에서 실제 현상을 탐구하고 예측하는 데 활용되고 있다.
[]
1.2. 데이터 수집 및 전처리
교재에 제공된 데이터를 바탕으로 연구를 진행하기 위해 데이터를 준비하였다. 먼저 사용연도(year)와 정비비용(price) 간 관계를 분석하기 위해 교재 39페이지의 데이터를 활용하였다. 해당 데이터를 메모장으로 maintenance.txt 파일을 생성하여 R에서 불러왔다. 또한 물 사용량에 영향을 미치는 요인을 분석하기 위해 교재 87페이지의 데이터를 엑셀 파일(water.xls)로 작성하고 xlsx 패키지를 사용하여 R에 불러왔다. 각 변수 간 관련성을 파악하기 위해 산점도를 그려보았으며, 상관계수를 계산하여 변수 간의 관계를 확인하였다. 이를 통해 유의한 관계가 있는 변수들을 선별하여 회귀모형 분석에 활용하였다. 데이터 준비 과정에서는 정확성과 완전성을 확보하기 위해 세심하게 검토하였으며, 필요한 경우 추가적인 전처리 과정을 거쳤다. 이렇게 수집된 데이터를 바탕으로 본격적인 분석을 진행하였다. [1,2,3]
1.3. 연구 목적
회귀모형의 기초적인 개념을 이해하고, 단순회귀분석과 다중회귀분석을 통해 실제 데이터에 적용하여 분석하고자 한다. 사용연도와 유지비용 간 관계, 물 사용량에 영향을 미치는 요인을 탐색하여 유의한 변수를 도출하고, 회귀모형의 진단 과정을 거쳐 회귀모형의 적합성을 평가하고자 한다. 나아가 연구 결과를 토대로 회귀모형의 실제 활용 방안을 모색하고, 향후 연구과제를 제시하고자 한다.
2. 단순회귀분석
2.1. 사용연도와 유지비용 간 관계 분석
사용연도(year)와 정비비용(price) 간 관계를 알아보기 위해 교재에 제시된 데이터를 활용하였다. 우선 데이터를 메모장 파일로 생성한 뒤 R에서 불러와 산점도를 그려 변수 간 관계를 대략적으로 파악하였다. 산점도 결과 year와 price 간 어느 정도의 선형 관계가 있음을 확인할 수 있었고, 이에 따라 단순회귀모형을 적합하는 것이 타당하다고 판단하였다.
회귀분석을 실시한 결과, 회귀계수의 추정값은 절편 =29.107, 기울기 =13.637로 나타났다. 이에 따라 단순회귀방정식은 =29.107+13.637*year로 도출되었다. 기울기에 대한 t-검정 결과 p-값이 0.0009779로 매우 작아 두 변수 간 유의한 선형관계가 있다는 것을 알 수 있었다. 또한 결정계수 는 약 60.98%로, 회귀방정식이 종속변수 변동의 상당 부분을 설명하고 있음을 확인하였다.
다음으로 회귀모형의 기본 가정 만족 여부를 확인하기 위해 잔차 그림을 그려보았다. 그 결과 잔차가 평균 0을 중심으로 일정한 띠 모양을 보이고 있어 등분산성과 독립성 가정이 만족된다고 판단하였다. 따라서 해당 회귀모형은 기본 조건을 만족하여 적합한 것으로 볼 수 있다.
마지막으로 적합된 회귀직선에 대해 신뢰구간을 추가로 도출하여 분석을 마무리하였다. 이를 통해 사용연도와 정비비용 간 관계를 보다 종합적으로 파악할 수 있었다.
2.2. 모형 적합 및 진단
사용연도와 유지비용 간 관계를 알아보기 위해 교재에 있는 데이터를 바탕으로 산점도를 그린 결과, year와 price 간 어느 정도의 선형 관계가 나타나므로 단순회귀모형을 ...