((강추자료A+)) 이상치 결측값 오차 잔차 관련 통계오류 활용방안 - 이상치outliers, 극단치extreme value, 열외군, 결측값
- 최초 등록일
- 2022.08.07
- 최종 저작일
- 2022.08
- 9페이지/ 한컴오피스
- 가격 3,200원
소개글
"((강추자료A+)) 이상치 결측값 오차 잔차 관련 통계오류 활용방안 - 이상치outliers, 극단치extreme value, 열외군, 결측값"에 대한 내용입니다.
목차
없음
본문내용
기존 통계학에서는 이상치outliers, 극단치extreme value, 열외군, 결측값에 대하여 평균값에서 벗어난 것으로 정상값에서 즉, 자료과 현황과 현실과 사실(fact)을 설명하지 못하기에 배격해 왔던 것이 사실이다.
이상치는 관측치들이 주로 모여 있는 곳에서 멀리 떨어져 있어 특정 그룹으로 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어난 자료를 의미한다. 이상치는 자료들의 분포에 따라 대푯값에 영향을 주므로 자료의 신뢰도와 정확도 향상을 위한 보장 측면에서 이상치 탐색과 처리는 중요한 과정으로 여겨졌다.
이상치는 특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어난 자료를 의미하며, 이상치 탐색은 질 높은 통계 분석 결과 도출에 있어 중요한 역할을 담당한다. 특히 이상치 정의 방법에 따라 열외군의 비율이 달라질 수 있으며, 동일한 방법을 적용하더라도 자료의 분포에 따라 차이가 있을 수 있어, 적절한 탐색 방법 선정이 중요하다.
통계학에서 68-95-99.7 규칙(영어: 68-95-99.7 rule)은 정규 분포를 나타내는 규칙으로, 경험적인 규칙(empirical rule)이라고도 한다. 3시그마 규칙(three-sigma rule)이라고도 하는데 이 때에 평균에서 양쪽으로 3표준편차의 범위에 거의 모든 값들(99.7%)이 들어간다는 것을 나타낸다.
약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(μ±σ)에 존재한다.
약 95%의 값들이 평균에서 양쪽으로 2 표준편차 범위(μ±2σ)에 존재한다.
거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3표준편차 범위(μ±3σ)에 존재한다. 그런데 이 때 이러한 정규분포의 양끝단에 있는 값들을 이상치, 결측값이라고 하여 관심하지 않았으나 돌발행동 및 범법, 불법행위(살인, 자살, 폭력, 사기, 카드부정, 건강보험 부당수급, 외도 등) 등을 찾아내는데 상당히 유용하게 활용되고 있다. 정책을 순응하지 않는 집단에 대한 관리방안으로도 유용할 것으로 사료된다.
참고 자료
없음