
총 21개
-
최대 우도 추정을 통한 확률 모델의 매개변수 추정2025.05.081. 최대 우도 추정(Maximum Likelihood Estimation, MLE) 최대 우도 추정은 주어진 데이터를 가장 잘 설명하는 모델의 매개변수 값을 찾는 과정으로, 우도 함수를 최대화하는 매개변수 값을 추정합니다. 이 방법은 데이터가 주어진 상황에서 가장 가능성이 높은 모델의 매개변수를 선택함으로써 최적의 예측을 수행하는데 도움을 줍니다. 2. 확률 모델링 확률 모델링은 다양한 분야에서 데이터 분석과 예측에 핵심적인 역할을 하고 있습니다. 데이터로부터 모델의 매개변수를 추정하는 과정은 모델의 정확성과 신뢰성을 높이는 데 ...2025.05.08
-
연속확률분포에 대한 요약2025.01.151. 정규분포 정규분포는 평균 μ와 표준편차 σ로 정의되며, 종 모양의 곡선을 갖는다. 정규분포의 확률밀도함수는 f(x)= {1} over {sigma sqrt {2 pi }} (- {(x- mu ) ^{2}} over {2 sigma ^{2}} )으로 정의된다. 정규분포는 많은 자연현상에서 나타나며, 중심극한정리에 의해 중요한 역할을 한다. 정규분포는 사람의 키, 시험 점수, 측정 오류 등을 모델링하는 데 사용되며, 금융 분야에서 자산의 수익률 분포를 설명하는 데 사용된다. 2. 균등분포 균등분포는 모든 구간 내의 값이 균등...2025.01.15
-
베이지안 네트워크 이용해서 잔디가 젖어있는 원인 추정하기2025.01.171. 베이지안 네트워크 베이지안 네트워크는 확률적 모델을 기반으로 사건 간의 의존 관계를 표현하는 도구입니다. 이를 통해 복잡한 문제를 구조적으로 분석하고 예측할 수 있습니다. 이 예제에서는 베이지안 네트워크를 사용하여 비가 오는지, 스프링클러가 작동하는지, 그리고 잔디가 젖는지에 대한 관계를 모델링하고 있습니다. 2. 조건부 확률 베이지안 네트워크에서는 각 변수 간의 의존 관계를 나타내기 위해 조건부 확률 분포를 사용합니다. 이를 통해 주어진 조건하에서 특정 사건이 발생할 확률을 계산할 수 있습니다. 이 예제에서는 비의 발생 확률...2025.01.17
-
MCMC 모델링2025.05.091. MCMC (Markov Chain Monte Carlo) MCMC는 확률적인 모델링과 추론을 위해 사용되는 강력한 도구입니다. MCMC는 샘플링 알고리즘 중 하나로, 타겟 분포로부터 샘플을 추출하는 기법입니다. 이를 통해 우리는 원하는 분포로부터 난수를 생성하거나, 분포의 특성을 파악하는데 도움을 얻을 수 있습니다. 2. 정규분포 샘플링 이 예제에서는 MCMC를 사용하여 정규분포로부터 샘플을 추출하는 방법을 살펴봅니다. 정규분포는 많은 자연 현상을 모델링할 때 사용되는 중요한 분포 중 하나이므로, MCMC를 통해 정규분포로부터...2025.05.09
-
간호통계학 과제 22025.01.171. 효소 평균 추정 연구자가 특정 집단의 효소의 평균을 추정하기 위하여 10명의 표본을 뽑아 효소값을 측정했다. 그 결과 표본평균이 45였고, 효소값은 분산이 1인 정규분포를 따른다고 할 때 95%의 신뢰구간을 추정하라. 2. 금연 프로그램 참여 임산부 비교 금연프로그램에 참여한 328명의 임산부가 하루에 핀 담배의 개수 평균은 5.2개피, 표준편차는 6.33이었다. 또 프로그램에 참여하지 않은 64명의 임산부가 하루에 핀 담배의 개수는 평균 15개피, 표준편차는 7.16이었다. 99%의 신뢰구간을 구하라. 3. 종합병원과 개인의...2025.01.17
-
선형회귀(Linear Regression)는 통계인가 머신 러닝인가?2025.05.081. 선형회귀 선형 회귀는 연속 값을 예측하는 데 사용되는 통계 방법입니다. 선형 회귀 모델은 두 변수 간의 관계를 설명하는 선형 방정식을 찾는 통계적 방법입니다. 선형 회귀 모델은 통계, 공학, 마케팅, 금융, 제조를 포함한 다양한 분야에서 사용됩니다. 선형 회귀는 데이터를 설명하고 미래를 예측하는 데 사용할 수 있는 가장 널리 사용되는 방법입니다. 2. 통계와 머신러닝 머신러닝의 등장으로 선형회귀는 주로 '지도 학습' 문제에서 사용됩니다. 선형회귀는 입력 변수와 출력 변수 사이의 선형적인 관계를 모델링하여 새로운 입력에 대한 출...2025.05.08
-
메타분석의 개념과 특징2025.04.291. 메타분석의 개념 메타분석은 전체 연구 결과에 대한 양적인 요약을 제공하는 통계적 검증기술로, 더 정확한 중재 효과에 대한 결정의 가능성을 제공하여 관련된 연구 분야에 걸쳐 통계적인 추정치를 제공한다. 메타분석은 분석들의 분석(analysis of analysis)으로 개별 연구의 결과를 통합할 목적으로 통계적 방법을 사용하여 분석하는 것을 말한다. 2. 메타분석의 특징 메타분석의 특징은 첫째, 수량적이고, 둘째, 효과크기를 계산하기 위하여 서로 상이한 연구들이 한 데 모아지게 되며, 셋째, 이러한 메타분석을 통해 일반적인 결론...2025.04.29
-
머신러닝에서의 불확실성2025.05.111. 데이터 불확실성 데이터의 일부 샘플에 레이블이 없거나 부정확한 경우, 데이터에 잡음이나 이상치가 포함되어 있거나, 데이터가 불완전한 경우 등 데이터 불확실성이 발생할 수 있습니다. 이는 모델이 정확한 예측을 하기 어렵게 만듭니다. 2. 모델 불확실성 모델이 복잡할수록 과적합될 가능성이 높아져 일반화 능력이 감소하고, 모델의 파라미터 값이 정확하게 알려지지 않는 경우 예측의 불확실성이 증가할 수 있습니다. 3. 환경 불확실성 데이터의 분포가 시간에 따라 변하거나 외부 요인이 발생하는 경우, 모델이 이러한 변동성을 정확하게 모델링...2025.05.11
-
빅데이터와 통계학_탐구보고서_확통(세특)2025.01.111. 빅데이터와 통계학 빅데이터는 기존의 데이터 베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형의 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 정보 통신 기술의 발달, 빅데이터에 대한 효율적인 저장 및 분석의 가능, 국가간 기술 격차 감소로 인해 빅데이터에 대한 관심이 높아지고 있다. 의료산업, 맞춤형 마케팅, 제조업 등 다양한 분야에서 빅데이터가 응용되고 있다. 따라서 빅데이터 시대에 가치를 추출하고 결과를 분석하는 분야와 밀접한 관련이 있는 ...2025.01.11
-
Regression with an Abalone Dataset 코드2025.01.271. 데이터 로딩 및 전처리 train.csv와 test.csv 파일을 pandas 라이브러리를 사용하여 로드했습니다. LabelEncoder를 사용하여 범주형 변수(sex)를 숫자 값으로 인코딩했습니다. 새로운 특성인 size(length x diameter x height)를 만들기 위해 특성 엔지니어링을 수행했습니다. 높이 값이 0인 행을 제거하여 데이터를 정리했습니다. 2. 데이터 변환 대부분의 특성에 대해 np.log1p 함수를 적용하여 로그 변환을 수행했습니다. 이 변환은 데이터 분포를 정규 분포에 가깝게 만들어 모델 성...2025.01.27