파이썬과R 출석수업과제물 (2022, 만점)
- 최초 등록일
- 2023.09.06
- 최종 저작일
- 2022.09
- 17페이지/ MS 워드
- 가격 4,000원
소개글
"파이썬과R 출석수업과제물 (만점)"에 대한 내용입니다.
목차
1. 3장 연습문제
2. 4장 연습문제
3. 8장 연습문제
본문내용
1. 3장 연습문제
1번.
데이터프레임을 생성하고, 특정 변수만 추출한 과정과 결과는 다음과 같다.
2번.
리스트 정의 후 딕셔너리 생성 과정과 결과는 다음과 같다.
<중 략>
3) Boxplot과 Histogram, 분포 설명
Boxplot을 그린 과정과 결과는 다음과 같다.
위 Boxplot을 통해서 5가지 변수의 최솟값, 최댓값, 중앙값, 1사분위수, 3사분위수, 이상치 등 전반적인 분포를 확인할 수 있다.
먼저, 변수calcium을 보면 전반적인 관측치들이 아래 쪽으로 치우쳐져 있음을 알 수 있다. 중앙값이 대략 500이지만, 2500을 넘는 이상치가 발견되어 전반적으로 비대칭적인 분포를 가짐을 알 수 있다. 변수 iron 또한 값이 다를 뿐, calcium과 유사한 분포를 보임을 확인할 수 있다.
이어서 변수protein은 중앙값이 대략 60정도이며, 250부근의 이상치가 파악된다. 변수 vitaminA는 타 변수들에 비해 더 불균형한 분포를 가짐을 단번에 확인할 수 있다. 관측치의 차이의 범위와 단위가 너무 커서 boxplot의 상자가 잘 표현되지 않고 있음을 확인할 수 있다. 반면, 변수vitaminC는100아래로 데이터가 몰려있으며, 중앙값은 대략 50정도에 머물러 있음을 확인할 수 있다.
이처럼 boxplot은 한 눈에 기술통계 분포를 직관적으로 알 수 있다는 점에서 장점이 있다고 생각하나, 변수vitaminA와 같이 데이터의 범위와 차이가 심한 경우에는 boxplot만으로는 분포를 파악하기엔 어려움이 있음을 알 수 있으며, 정확한 기술통계량을 알기 위해선 원본 자료와 함께 검토하는 것이 필요하다고 느꼈다.
참고 자료
김성수 외, “파이썬과 R”, 2020, 한국방송통신대학교출판문화원