본문내용
1. 확률변수와 확률분포
1.1. 확률변수와 확률분포
확률변수와 확률분포는 확률에 관련된 개념으로, 통계학에서 중요하게 다루어지는 주제이다. 확률변수는 한 실험의 각 결과에 하나의 수를 부여하는 함수 또는 규칙이다. 이러한 확률변수에 따라 확률분포가 결정되는데, 확률분포는 하나의 확률변수의 값들과 그에 관련되는 확률을 기술하는 표, 공식 또는 그래프이다.
확률변수에는 이산확률변수와 연속확률변수가 있다. 이산확률변수는 변수가 갖는 값을 셀 수 있는 경우이고, 연속확률변수는 변수의 값을 셀 수 없는 경우이다. 예를 들어 동전 던지기 실험에서의 앞면의 수는 이산확률변수이고, 컴퓨터 조립시간은 연속확률변수이다.
확률분포에는 이산확률분포와 연속확률분포가 있다. 이산확률분포는 이산확률변수의 분포이고, 연속확률분포는 연속확률변수의 분포이다. 이산확률분포의 필요조건은 모든 확률이 0과 1 사이에 있으며, 모든 확률의 합은 1이 되어야 한다는 것이다. 대표적인 이산확률분포에는 이항분포, 포아송분포 등이 있다.
이처럼 확률변수와 확률분포는 통계학에서 매우 중요한 개념이다. 이를 이해하고 활용할 수 있다면 다양한 분야에서 유용하게 적용할 수 있을 것이다.
1.2. 이산확률분포
이산확률분포는 확률변수가 이산적인 값을 갖는 경우의 확률분포이다. 이산확률변수는 연속적이지 않은 값들을 갖는 확률변수로, 주사위를 던졌을 때 눈의 수나 동전을 던졌을 때 앞면/뒷면의 횟수 등이 이에 해당한다. 이산확률분포에서는 각 확률변수 값에 대한 확률을 열거하거나 함수로 나타내게 된다.
이산확률분포의 대표적인 예로는 이항분포, 초기하분포, 포아송분포 등이 있다. 이항분포는 베르누이 시행을 n번 반복했을 때 성공한 횟수에 대한 분포이고, 초기하분포는 유한 모집단에서 비복원 추출을 할 때의 분포이며, 포아송분포는 단위 시간이나 단위 공간에서 무작위로 발생하는 사건의 발생횟수에 적용된다.
이러한 이산확률분포들은 각각 고유한 확률질량함수와 기댓값, 분산 등의 특성을 가지고 있다. 이를 통해 확률변수의 특성을 파악하고 통계적 추론을 수행할 수 있다. 특히 실생활이나 경영 의사결정 등 다양한 분야에서 활용되어 중요한 역할을 하고 있다.
1.3. 이항분포
1.3.1. 베르누이 시행
베르누이 시행은 실험의 결과가 성공 또는 실패의 두 가지 상호배반사상으로 나누어질 수 있는 실험이다. 이때 성공(1로 표현)의 확률이 p이고, 실패(0으로 표현)의 확률이 q=(1-p)이다. 베르누이 시행의 대표적인 예로는 동전을 던져 앞면이 나오는 실험, 투표에서 특정 후보에게 투표하는 실험 등이 있다. 베르누이 시행의 특징은 다음과 같다.
첫째, 실험의 결과가 성공 또는 실패의 두 가지 사건으로 구분될 수 있다는 것이다. 둘째, 각 시행에서 성공확률 p가 일정하다는 것이다. 셋째, 각 시행이 상호 독립적이라는 것이다. 이러한 특징들이 만족되면 이를 베르누이 과정이라고 한다.
베르누이 과정에서는 실험을 n회 반복하여 성공한 횟수 X를 확률변수로 정의할 수 있다. 이때 X는 이항확률변수를 따르게 된다. 따라서 베르누이 시행은 이항분포와 밀접한 관련이 있는 개념이다.""
1.3.2. 이항분포
이항분포는 대표적인 이산확률분포 중 하나로, 특정 실험을 n번 반복하여 성공한 횟수를 나타내는 확률변수를 따르는 분포이다. 이때 각 실험의 결과는 상호 독립적이며 두 가지 결과(성공 또는 실패)만 가능하다는 특징이 있다.
이항분포를 이해하기 위해서는 먼저 베르누이 시행에 대해 알아볼 필요가 있다. 베르누이 시행이란 단 한 번의 실험에서 두 가지 상호 배반적인 결과(성공 또는 실패)만 나올 수 있는 실험을 말한다. 예를 들어 동전 던지기, 제품 불량 검사, 국민 투표 등이 이에 해당한다. 이때 성공 확률을 p, 실패 확률을 q(=1-p)라고 한다.
이항분포는 이러한 베르누이 시행을 n번 반복했을 때, 성공한 횟수를 확률변수로 하는 분포이다. 즉, 이항확률변수 X가 x번 성공할 확률은 다음과 같이 표현된다.
P(X=x) = * p^x * (1-p)^(n-x)
여기서 n은 전체 시행 횟수, x는 성공 횟수, p는 성공 확률, 는 조합 계수를 의미한다. 조합 계수는 엑셀의 COMBIN() 함수를 이용하여 계산할 수 있다.
이항분포의 평균은 E(X) = np, 분산은 V(X) = npq(=np(1-p))로 계산된다. 따라서 이항분포의 표준편차는 √(npq)가 된다.
이항분포는 실생활에서 다양하게 활용될 수 있다. 예를 들어 동전을 던져 앞면이 나오는 횟수, 제품 검사에서 불량품이 발견되는 횟수, 정치 선거에서 특정 후보에 투표한 유권자의 수 등을 이항분포로 모델링할 수 있다. 이를 통해 해당 실험의 성공 확률과 분포 특성을 파악할 수 있다.
1.3.3. 이항확률함수
이항확률함수는 n번의 베르누이 시행에서 x번의 성공할 확률을 계산하는 함수이다. 성공확률이 p이고 시행 횟수가 n일 때, ...