통계학개론 ('20-01) 온라인 평가
- 최초 등록일
- 2020.07.12
- 최종 저작일
- 2020.07
- 9페이지/ MS 워드
- 가격 4,500원
목차
없음
본문내용
1.어느 지역의 11개 서점에서 지난 한달 간 통계학 서적 판매실적이 다음과 같다.
20, 18, 15, 17, 18, 21, 25, 28, 24, 25, 280
1.1 이 경우 어떤 통계량을 대푯값으로 하는 것이 적합한가? 그 이유를 설명하고 대푯값을 구하라. (4점)
대푯값이란 어떤 데이터를 대표하는 값이다. 우선 데이터 중심위치를 표현할 수 있는 통계량으로는 중앙값을 쓰는 것이, 데이터의 변동을 잘 표현해줄 수 있는 통계량으로는 다섯수치 요약이 적합하다고 본다.
일반적으로 데이터의 중심위치를 나타내는 방식에는 평균, 중앙값, 최빈값 등이 있다. 평균을 가장 일반적으로 사용하나. 데이터가 한쪽으로 치우쳐 있거나 특이점이 있는 경우에는 영향을 크게 받는다. 해당 데이터에서도 280이라는 특이점이 보이기 때문에 평균을 쓰기는 어렵다. 관측값의 양쪽에서 일정 비율 α의 이상점을 버리고, 나머지 관측값들만으로 낸 절사평균을 사용하는 방안을 고려해볼 수는 있겠다. 각설하고 중앙값은 특이점의 영향을 거의 받지 않는 데이터 값으로 작은 값에서 큰값 순으로 정렬 후 중간 값을 취하는 형식이다. 해당 데이터셋의 경우 중앙값은 21이고 평균은 44.63636이다. 최빈값의 경우, 현재 두 번이상 존재하는 수치는 18밖에 없고 빈도 역시 2회이기 때문에 대표값으로 사용하는 것은 어렵다.
그리고 데이터의 변동을 표현하는 방식으로는 범위, 사분위수, 표준편차 등이 있다. 표준편차가 가장 일반적으로 쓰이지만 앞서 언급한 평균과 같이 특이점에 영향을 받을 수 있다. 그래서 다섯수치 요약으로 볼 경우 중심위치에 대한 측도와 데이터의 퍼짐 외에도 데이터의 치우침 정도도 한 눈에 확인할 수 있다.
1.2데이터의 특성을 잘 나타낼 수 있는 그래프를 작성하고 설명하시오.(4점)
상단 2개의 그래프는 모든 데이터를 추출하여 그린 것이고 하단 2개의 그래프는 상자그림에 특이점으로 간주할 수 있는 280을 제거하고 그린 것이다. 상단 그래프에서 특이점으로서 280을 확인할 수 있다.
참고 자료
없음