본문내용
1. 데이터 분석 및 회귀모형 적합
1.1. 단순회귀모형 분석
1.1.1. 사용연도와 유지비용 간 관계 분석
사용연도(year)와 정비비용(price) 간의 관계를 분석하기 위해 먼저 데이터를 준비하였다. 교재에 제시된 데이터를 바탕으로 메모장에 maintenance.txt 파일을 생성하였고, R에서 해당 데이터를 불러와 산점도를 그려본 결과 두 변수 간 어느 정도 선형적인 관계가 있음을 확인할 수 있었다. 이에 단순회귀모형 분석을 진행하였다.
회귀모형 적합 결과, 회귀계수의 추정값은 절편 = 29.107, 기울기 = 13.637로 나타났다. 이를 바탕으로 단순회귀방정식은 price = 29.107 + 13.637*year로 표현할 수 있다. 기울기 년에 대한 t-값은 4.330이고, 유의확률 p-값은 0.0009779로 매우 작게 나타났기 때문에 귀무가설을 기각하고 대립가설을 채택할 수 있다. 즉, 사용연도와 정비비용 간에 통계적으로 유의한 선형관계가 있다고 볼 수 있다.
또한 결정계수 R^2은 0.6098로 약 60.98%의 변동이 회귀방정식으로 설명된다고 할 수 있다. 이는 사용연도가 정비비용에 어느 정도 영향을 미치고 있음을 보여준다.
다음으로 회귀방정식의 유의성에 대한 검정을 F-검정을 통해 실시하였다. 분산분석표 결과, F-값이 18.75이고 유의확률 p-값이 0.0009779로 매우 작게 나타나 회귀방정식이 유의함을 알 수 있었다.
마지막으로 회귀모형의 기본 가정 충족 여부를 확인하기 위해 잔차 그림을 그려 분석하였다. 잔차 그림에서 평균 0을 중심으로 일정한 띠모양을 가지고 있어 등분산성을 만족하고, 특정한 함수 관계가 보이지 않아 독립성도 충족한다고 판단할 수 있었다. 따라서 해당 단순회귀모형은 기본 가정을 만족하는 적합한 모형이라고 결론내릴 수 있었다.
1.1.2. 회귀모형 적합 및 진단
사용연도와 유지비용 간 관계를 알아보기 위해 단순회귀모형을 적합하였다. 먼저 산점도를 통해 사용연도(year)와 유지비용(price) 간에 선형관계가 있는 것으로 확인되었다. 이에 단순회귀모형을 적합한 결과, 회귀방정식은 price = 29.107 + 13.637*year로 나타났다.
회귀계수의 유의성을 검정한 결과, 기울기(year)에 대한 t-값은 4.330이고 p-값이 0.0009779로 매우 작아 통계적으로 유의하였다. 즉, 사용연도가 유지비용에 유의한 영향을 미치고 있음을 알 수 있다.
모형의 적합도를 나타내는 결정계수 R^2는 0.6098로 약 60.98%의 설명력을 보이고 있다. 이는 다소 낮은 편이지만, 회귀방정식으로 사용연도와 유지비용의 관계를 설명할 수 있다고 판단된다.
추가로 회귀모형의 기본 가정 충족 여부를 확인하기 위해 잔차 분석을 실시하였다. 잔차 그림을 살펴본 결과 잔차가 평균 0을 중심으로 일정한 띠 모양을 보여 등분산성과 독립성 가정을 만족하는 것으로 나타났다. 따라서 해당 단순회귀모형은 적합한 것으로 볼 수 있다.
마지막으로 적합된 회귀직선에 대한 신뢰구간을 추정하여 사용연도에 따른 유지비용 예측 구간을 제시하였다. 이를 통해 사용연도와 유지비용 간의 관계를 보다 종합적으로 분석할 수 있었다.
1.2. 다중회귀모형 분석
1.2.1. 물소비량과 영향 요인 분석
여러 가지 독립변수가 물 사용량에 영향을 미치는지 확인하기 위해 물소비량(Y), 평균온도(X1), 작업일수(X2), 작업량(X3)에 대한 다중회귀분석을 진행하였다.
먼저, R에서 해당 데이터를 엑셀 파일로 불러와 데이터를 확인하였다. 각 변수 간 관련성을 파악하기 위해 산점도를 그린 결과, 평균온도(X1)를 제외하고는 물소비량(Y)와 큰 관련성이 없는 것으로 판단되었다. 이후 변수 간 상관관계를 분석한 결과, 물소비량(Y)은 특히 평균온도(X1)와 높은 상관관계를 가지고 있음을 확인하였다.
이를 바탕으로 다중회귀모형을 적합한 결과, 추정된 회귀방정식은 Y = 3.15 + 0.172X1 - 0.0646X2 + 0.0294X3이었다. 해당 모형의 결정계수 R^2은 0.9202로, 중회귀모형이 종속변수 Y(물소비량)의 총변동을 92.02% 정도 설명하고 있음을 알 수 있었다.
변수별로 살펴보면, 평균온도(X1)의 t-값은 5.521이고 유의확률 ...