신체측정 자료를 이용한 몸무게 예측 알고리즘( 회귀분석)
- 최초 등록일
- 2017.08.23
- 최종 저작일
- 2017.06
- 10페이지/ 어도비 PDF
- 가격 3,000원
소개글
이글은 공공자료인 신체측정 데이터를 이용하여 몸무게 예측 알고리즘을 통계학의 기본인 회귀 분석을 통하여 만든 자료 입니다. 실제 데이터의 문제가 제기 되어 있어서 회귀분석의 몇몇 방법을 적용해 보았습니다.
목차
1. 데이터 정제와 변수 선택
2. 산점도 비교
3. 회귀분석
4. 정규성 검토
본문내용
본 연구는 “한국인 인체치수조사”에서 한국인 남,녀 6420명을 대상으로 신체의 134개의 영역을 측정한 데이터를 이용하여 몸무게를 예측하는 모형을 만드는데 목표를 두었다. 예측에 앞서 데이터를 탐색해보았을 때 몇가지 문제점이 있었다. 첫 번째로 결측치가 많은 변수들이 존재했었고, 또한 몸무게와는 상관이 없을 것 같은 변수들이 존재하였다. 그래서 먼저 데이터를 정제하는 과정이 필요했고 연구 과정은 데이터 정제-> 상관관계분석-> 회귀분석 ->잔차분석 의 순서로 진행하였다. 처음으로 134개의 변수들 중에서 결측치가 많은 변수는 제외한 상태에서 몸무게를 측정하는데 중요한 변수들을 뽑는 것으로 데이터 분류를 하였다.(변수가 충분히 많다고 생각해서 이후 에 예측이 잘 안될 경우 결측치가 많은 변수를 고려하기로 한다.) 두 번째로 두가지 방식으로(변수 직접선택 모델과 상관관계 분석을 통해 의미있는 변수들을 선택한 모델) 변수를 선택하여 모델을 만들어 회귀분석을 해 보았고, 두 모델을 비교하여 더 은 모델을 선택하였다. 세 번째로 잔차분석과 정규성을 검토하여 잘 적합되었는지, 변수변환이 필요한지를 고려해 보았다. 이러한 과정을 거쳐 분석한 결과 총 134개의 데이터 중 필요한 몇 개의 변수 만으로도 비교적 몸무게 예측이 어렵지 않았다. 정규성을 검토하면서 약간 휘어진 경향이 있기는 하나 대체적으로 직선에 가깝기 때문에 변수에 대한 변환은 필요가 없다고 생각하였다.(몇개의 outlier를 제외하면 거의 완벽하게 적합되었다고 생각한다). 또한, 두 모델을 비교하여 판단한 결과 의미있는 변수들을 선택한 모델이 더 예측력은 좋았지만 과적합(over fiting) 되는 오류를 범했고, 결론적으로 변수를 직접 선택한 모델이 안정적으로 적합되었고, 과적합된 모델보다 좋은 모델이라고 판단하였다. 마지막으로 한가지 문제라고 의심되는 부분이 있는데, 실제 회귀계수들이 거의 0에 가깝게 나오기 때문에 다변량 분석에서의 rank가 Ful rank가 아닐 것 이라는 의심이 들어 데이터에 문제가 있다는 판단을 하였지만, 아직 이 수준까지는 능력이 미치지 못하여 문제 제기만 해보기로 한다.
참고 자료
없음