본문내용
1. 확률변수와 확률분포
1.1. 확률변수의 특성
확률변수는 확률실험의 결과를 수치화한 것으로, 무작위 실험에서 발생할 수 있는 모든 가능한 결과를 나타내는 변수이다. 확률변수는 이산확률변수와 연속확률변수로 구분될 수 있다.
이산확률변수는 실험의 결과가 셀 수 있는 값들의 집합으로 이루어진 변수이다. 예를 들어 주사위 던지기 실험에서 눈의 수는 1, 2, 3, 4, 5, 6의 이산적인 값을 가지는 확률변수이다. 반면 연속확률변수는 실험의 결과가 연속적인 값들의 범위를 가지는 변수이다. 예를 들어 사람의 키는 연속적인 값을 가지는 확률변수이다.
확률변수의 특성은 다음과 같다. 첫째, 확률변수는 실험의 결과를 수치화한 것이므로 셀 수 있거나 측정할 수 있는 값을 가진다. 둘째, 확률변수는 실험의 모든 가능한 결과를 나타내야 한다. 셋째, 확률변수는 유한하거나 무한하게 많은 값을 가질 수 있다. 넷째, 확률변수는 이산형일 수도 있고 연속형일 수도 있다.
요약하면, 확률변수는 확률실험의 결과를 수치화한 것으로, 이산형과 연속형으로 구분되며 실험의 모든 가능한 결과를 나타내는 변수라고 할 수 있다."
1.2. 확률분포의 유형
확률분포의 유형에는 이산확률분포와 연속확률분포가 있다. 이산확률분포는 확률변수가 특정한 이산적인 값들만을 가지는 경우이며, 대표적인 예로 이항분포와 포아송분포가 있다. 반면 연속확률분포는 확률변수가 연속적인 값들을 가지는 경우로, 정규분포와 지수분포가 대표적이다.
이산확률분포에서는 확률질량함수를 통해 각 이산값의 발생확률을 나타낼 수 있다. 반면 연속확률분포에서는 확률밀도함수를 통해 연속적인 확률변수의 분포를 표현한다.
이산확률분포와 연속확률분포는 확률변수의 특성에 따라 구분되며, 확률변수의 성질과 데이터의 특성에 따라 적절한 확률분포를 선택하여 분석을 수행해야 한다. 이를 통해 변수 간 관계, 평균, 분산 등 다양한 통계적 분석을 수행할 수 있다.
1.3. 이변량 확률분포
이변량 확률분포는 두 개의 확률변수 X와 Y의 관계를 나타내는 확률분포이다. 두 변수 X와 Y가 동시에 발생할 확률을 나타내므로 이변량 확률분포라고 한다. 이변량 확률분포는 이산형과 연속형으로 구분되는데, 각각의 경우에 대한 특성과 활용방안이 다르다.
이산형 이변량 확률분포의 경우, 두 확률변수 X와 Y가 모두 이산형 변수인 경우를 말한다. 이때 두 변수의 관계를 나타내는 이변량 확률분포표를 작성할 수 있다. 이 표에는 각 사건의 발생확률이 기재되며, 주변확률과 조건부확률 등을 계산할 수 있다. 이산형 이변량 확률분포는 주로 범주형 자료의 분석에 활용된다.
연속형 이변량 확률분포의 경우, 두 확률변수 X와 Y가 모두 연속형 변수인 경우를 말한다. 이때 두 변수의 관계를 나타내는 이변량 확률밀도함수를 정의할 수 있다. 이 함수를 통해 두 변수의 공분산과 상관계수를 계산할 수 있다. 공분산은 두 변수의 선형관계 강도를, 상관계수는 두 변수의 상관성 정도를 나타낸다. 연속형 이변량 확률분포는 주로 두 연속형 변수 간의 관계 분석에 활용된다.
이변량 확률분포는 다양한 분야에서 활용된다. 경영, 경제, 공학, 의학 등 여러 분야에서 두 변수 간의 관계를 분석하는 데 이용된다. 예를 들어, 기업의 매출액과 광고비의 관계, 제품의 가격과 수요량의 관계, 환자의 나이와 혈압의 관계 등을 분석할 때 이변량 확률분포가 활용된다.
또한 이변량 확률분포는 다변량 확률분포로 확장될 수 있다. 세 개 이상의 확률변수 간의 관계를 나타내는 다변량 확률분포는 보다 복잡한 상황을 분석하는 데 사용된다. 이러한 다변량 분석기법은 최근 데이터 마이닝, 인공지능 등의 발전과 함께 더욱 중요해지고 있다.
1.4. 확률변수의 기댓값과 분산
확률변수의 기댓값은 모든 확률변수 값에 그 확률변수 값을 곱한 것을 더한 값이다. 즉, 확률변수가 각각 어떤 값을 취할 때 그 값의 가중평균이라고 할 수 있다. 기댓값은 확률변수의 평균값을 나타내는 대표적인 측도이다.
분산은 확률변수가 기댓값에서 떨어진 정도를 나타내는 척도로, 각 확률변수 값과 기댓값의 차이를 제곱한 값에 그 확률을 곱한 것을 모두 더한 것이다. 분산이 작을수록 확률변수 값이 기댓값 주변에 모여 있다고 볼 수 있다.
따라서 확률변수의 기댓값과 분산은 확률변수의 특성을 파악하는 데 매우 중요한 지표라고 할 수 있다. 이를 통해 확률변수의 평균값과 변동성을 알 수 있기 때문이다.
1.5. 기댓값의 법칙과 분산의 법칙
기댓값의 법칙과 분산의 법칙은 확률변수의 성질을 이해하는데 중요한 역할을 한다.
기댓값의 법칙에 따르면, 두 확률변수 X와 Y에 대해 E(aX+bY)=aE(X)+bE(Y)가 성립한다. 이는 선형결합된 확률변수의 기댓값은 각 확률변수의 기댓값에 해당 계수를 곱한 값의 합과 같다는 의미이다. 예를 들어 Y=5X라면, E(Y)=E(5X)=5E(X)가 된다.
분산의 법칙 또한 유사한데, V(aX+bY)=a²V(X)+b²V(Y)+2abCov(X,Y)가 성립한다. 즉, 선형결합된 확률변수의 분산은 각 확률변수의 분산에 해당 계수의 제곱을 곱한 값의 합과 공분산항의 두 배로 구성된다. 앞선 예의 경우 V(Y)=V(5X)=25V(X)가 된다.
이러한 법칙들은 다변량 확률변수의 특성을 파악하고 예측하는데 유용하게 활용된다. 실무에서도 이를 응용하여 포트폴리오 위험 관리, 재무제표 분석 ...