본문내용
1. 통계적 가설검정과 오류
1.1. 제1종 오류와 제2종 오류
제1종 오류와 제2종 오류는 통계적 가설검정에서 발생할 수 있는 두 가지 오류이다.
제1종 오류(一種誤謬, 영어: type I error)는 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류이다. 즉, 실제 음성인 것을 양성으로 판정하는 경우이다. 거짓 양성 또는 알파 오류(영어: α error)라고도 한다. 제1종 오류를 범할 확률은 α로, 가설 검정에 대해 설정한 유의 수준이다. α가 0.05이면 귀무가설을 잘못 기각할 가능성이 5%임을 인정하는 것이다.
제2종 오류(二種誤謬, 영어: type II error)는 귀무가설이 실제로 거짓이지만, 이에 불구하고 귀무가설을 채택하는 오류이다. 즉, 실제 양성인 것을 음성으로 판정하는 경우이다. 거짓 음성 또는 베타 오류(영어: β error)라고도 한다. 제2종 오류를 범할 확률은 β로, 검정의 검정력에 따라 달라진다. 검정력을 충분하게 설정함으로써 제2종 오류를 범할 위험을 줄일 수 있다.
가설 검정을 수행할 때는 제1종 오류와 제2종 오류를 범할 위험을 고려해야 한다. 왜냐하면 한 유형의 오류를 범하는 경우 다른 유형의 오류보다 심각한 결과를 초래하거나 더 많은 비용이 들 수 있기 때문이다. 이 경우 상대적 심각성을 반영하는 유의 수준과 검정력을 선택하여야 한다.
1.2. 귀무가설과 대립가설
귀무가설과 대립가설이란 통계적 가설검정에서 중요한 개념이다. 귀무가설(null hypothesis)은 관심대상 사건에 대해 유의성이나 차이가 없다는 것을 말하는 가설이다. 예를 들어 특정 신약의 효과를 검정할 때, "신약은 효과가 없다"는 것이 귀무가설이 된다.
반면에 대립가설(alternative hypothesis)은 관심대상 사건에 유의성이나 차이가 있다는 것을 말하는 가설이다. 위의 신약 효과 검정 예에서 "신약은 효과가 있다"는 것이 대립가설이 된다.
가설검정은 표본으로부터 얻은 정보를 바탕으로 모집단에 대한 추측을 하는 과정이다. 귀무가설을 기각하면 대립가설이 참이라고 판단하고, 귀무가설을 기각하지 않으면 대립가설이 거짓이라고 판단한다. 이때 귀무가설을 잘못 기각하는 오류를 제1종 오류, 귀무가설을 잘못 채택하는 오류를 제2종 오류라고 한다.
가설검정에서는 귀무가설과 대립가설을 적절히 설정하는 것이 중요하다. 귀무가설과 대립가설은 서로 배반적이어야 하며, 연구목적에 부합해야 한다. 또한 제1종 오류와 제2종 오류의 확률을 고려하여 가설을 설정해야 한다. 통계적 추론의 핵심은 적절한 가설 설정과 검정을 통해 모집단의 특성을 파악하는 것이라고 할 수 있다."
2. 한국프로야구 데이터 수집
2.1. KBO 자료실
KBO 자료실은 한국야구위원회에서 운영하는 공식 기록실로, 1982년부터의 한국프로야구 관련 자료를 제공하고 있다. 이를 통해 한국프로야구의 타격과 관련된 다양한 변수들의 데이터를 확인할 수 있다.
KBO 자료실에서는 선수들의 기본적인 타격 기록인 타율, 안타, 홈런, 타점 등은 물론이고 출루율, 장타율, 도루, 득점 등의 다양한 세부 지표들을 확인할 수 있다. 또한 팀 단위의 각종 기록들도 제공되고 있어, 개별 선수의 성적뿐만 아니라 팀 전체의 전력 분석도 가능하다.
특히 과거 데이터까지 열람할 수 있어, ...