총 79개
-
자료에 극단값이 포함된 경우 극단값 처리에 대한 논의2025.01.281. 극단값의 정의와 특성 극단값은 데이터 집합에서 다른 값들과 큰 차이를 보이는 값으로, 일반적으로 데이터 분포의 상하위 1% 또는 3 표준편차를 벗어난 값을 극단값으로 간주한다. 극단값은 오류로 인해 발생하거나 데이터의 본질적 특징을 반영할 수 있다. 2. 극단값이 분석에 미치는 영향 극단값은 평균, 표준편차와 같은 주요 통계값에 큰 영향을 미칠 수 있다. 극단값으로 인해 데이터의 분포가 왜곡되어 정책 결정이나 연구 결과 해석에 오류를 초래할 수 있다. 3. 극단값의 처리 방법 극단값 처리 방법에는 극단값 제거, 다른 값으로 대...2025.01.28
-
자료에 극단값이 포함된 경우 극단값은 반드시 제외해야 하는지, 그렇게 생각하는 이유를 논거하시오.2025.01.271. 극단값이 데이터 분석에 미치는 영향 극단값은 데이터의 중심 경향 및 분포를 왜곡하는 주요 요소로 작용한다. 특히 평균, 표준편차 등 중심화된 통계치를 이용해 데이터 분석을 수행할 경우, 극단값이 포함됨으로써 분석 결과가 실제와 다르게 나타날 수 있다. 또한 극단값은 예측 모델의 성능에 부정적인 영향을 미칠 수 있다. 2. 극단값을 제외해야 하는 상황 극단값을 제외하는 것이 바람직한 경우는 해당 극단값이 데이터의 오류이거나 분석의 목적에 부합하지 않는 경우이다. 또한 극단값이 데이터의 분포나 경향성을 과도하게 왜곡할 경우 이를 ...2025.01.27
-
일상생활에서 평균값, 중앙값, 최빈값의 사용 사례2025.01.031. 평균값 평균 월급이 높다고 해서 모든 사람이 그 수준의 월급을 받는 것은 아니다. 평균값은 실제 상황을 정확히 반영하지 못할 수 있으므로, 중앙값이나 최빈값과 같은 다른 통계 지표를 함께 고려해야 한다. 2. 중앙값 중앙값은 데이터를 크기순으로 나열했을 때 가운데에 위치한 값으로, 평균값보다 실제 상황을 더 잘 반영할 수 있다. 중앙값을 통해 특정 집단의 일반적인 수준을 파악할 수 있다. 3. 최빈값 최빈값은 관찰 대상 집합에서 가장 많이 나타나는 값을 의미한다. 평균값이나 중앙값과 달리, 최빈값은 특정 집단 내에서 가장 일반...2025.01.03
-
경영통계학_데이터를 대표하는 값들의 종류와 특징에 대해 설명하고, 그 사례를 제시하시오.2025.05.161. 평균값의 특징과 사례 평균(mean)은 통계에서 가장 많이 사용되는 대푯값으로 최소값과 최대값 사이의 주로 정의할 수 있다. 평균은 매우 크거나 작은 값의 영향을 받는 특징이 있는데 산출평균, 가중평균, 기하평균, 조화평균, 이동평균으로 다시 나누어진다. 산출평균은 모든 관찰값의 영향을 받아 합리성이 떨어지므로 특정 그룹의 대략적인 평균치를 알고자 할 때 주로 사용된다. 가중평균은 관측값마다 중요도가 다를 경우 사용되며, 기하평균은 시간에 따라 변화하는 변수의 평균을 계산할 때 사용된다. 조화평균은 역수를 가지는 경우에만 사용...2025.05.16
-
데이터를 대표하는 값들의 종류와 특징에 대해 설명하고, 그 사례를 제시하시오2025.05.081. 평균(Average) 평균은 데이터의 총합을 데이터의 개수로 나눈 값으로, 데이터 전체를 대표하는 가장 기본적인 값 중 하나이며 데이터의 중심을 대표한다. 하지만 이상치(outlier)가 있는 경우 데이터의 특성을 왜곡할 수 있다. 2. 중앙값(Median) 중앙값은 데이터를 크기순으로 정렬했을 때 가장 중앙에 위치하는 값으로, 데이터의 분포와 상관없이 항상 존재하며 이상치에 대한 영향을 받지 않는다. 3. 최빈값(Mode) 최빈값은 데이터에서 가장 자주 나타나는 값을 의미하며, 연속형 데이터에서는 사용하지 않고 이산형 데이터...2025.05.08
-
로그 정규분포 실습해보기 (파이썬예제 포함)2025.05.101. 로그-정규분포 로그-정규분포는 양수값을 모델링하기에 적합한 분포입니다. 불량율을 로그 변환한 후, 정규분포를 사용하여 모델링할 수 있습니다. 이 분포는 자연로그를 취한 값이 정규분포를 따른다고 가정하는 것이기 때문에, 불량율이 양수인 경우에 유용합니다. 로그 정규분포는 실제로 많은 현상에서 관찰되는 분포로서, 소득 데이터와 같은 경제적인 현상에서 자주 사용됩니다. 소득 분포의 경우, 대부분의 개인들이 상대적으로 낮은 소득을 가지지만, 일부 특정 개인들이 다른 사람들보다 훨씬 높은 소득을 가지는 경우가 발생할 수 있습니다. 로그...2025.05.10
-
데이터를 대표하는 값들의 종류와 특징에 대해 설명하고, 그 사례를 제시하시오2025.01.221. 대푯값 대푯값은 어떠한 데이터를 대표하는 값이다. 대푯값에 포함되는 사항으로는 중앙값이나 평균, 백분위수, 절사평균, 사분위수 등 다양하다. 통상적으로 대푯값은 자료의 특징을 하나의 수로 표현한 것이다. 중앙값은 전체 변량을 순서대로 늘어놓았을 때 가장 중앙 부분에 위치한 수이며, 최빈값은 가장 많이 출연하는 값이다. 사분위수는 자료를 크기순으로 가장 작은 순부터 나열을 했을 때나 반대로 큰 수부터 나열을 했을 때 4등분을 하는 관측값이며, 백분위는 자료를 크기 순으로 늘어놓았을 때 x%인 관측값을 의미한다. 절사 평균은 관측...2025.01.22
-
일상생활에서의 평균값, 중앙값, 최빈값 사례2025.01.271. 평균값의 일상적 활용 평균값은 여러 데이터의 중심 경향을 나타내는 대표적인 통계 지표로, 일상생활에서 다양한 방식으로 활용되고 있다. 가계부 작성, 학업 성취도 평가, 직장 근무 시간 분석, 건강 관리 등 다양한 분야에서 평균값이 사용되어 의사결정에 기여하고 있다. 평균값은 데이터의 전반적인 경향을 파악하는 데 유용하지만, 극단적인 값에 민감하다는 단점도 존재한다. 2. 중앙값의 적용 사례 중앙값은 데이터의 중간 값을 나타내는 통계 지표로, 극단적인 값의 영향을 최소화하여 데이터의 중심을 파악하는 데 유용하다. 가구 소득 분석...2025.01.27
-
산술평균, 분산, 표준편차의 개념 및 의의, 특징 및 장단점, 산출방법2025.01.251. 산술평균 산술평균은 데이터 집합의 중심 경향성을 나타내는 대표값으로 활용된다. 이는 주어진 데이터 집합의 모든 값들을 더한 후 데이터의 개수로 나누어 계산된다. 이 값은 데이터의 분포와 집중되어 있는 위치를 파악하는 데에 유용하다. 그러나 산술평균은 이상값의 존재로 인해 왜곡될 수 있으며, 특히 데이터가 정규분포를 따르지 않을 때 문제가 될 수 있다. 2. 분산 분산은 데이터의 흩어진 정도를 나타내는 측도로, 각 데이터 값과 평균의 차이를 제곱하여 모두 합한 후 데이터의 개수로 나눈 값이다. 이는 주어진 데이터가 얼마나 평균 ...2025.01.25
-
A백화점 고객 대기시간 분석2025.04.271. 평균, 중앙치, 최빈치 자료의 평균, 중앙치, 최빈치를 계산하였다. 평균은 0.556분, 중앙치는 2.7분, 최빈치는 2.6분으로 나타났다. 이 중 중앙치가 가장 적절한 대푯값으로 판단되었는데, 그 이유는 평균은 극단값의 영향을 받을 수 있고, 최빈치는 자료 수가 적을 경우 전체 특성을 반영하지 못할 수 있기 때문이다. 2. 범위, 분산, 표준편차, 변동계수 자료의 범위는 2.5분, 분산은 0.464분, 표준편차는 0.681분으로 계산되었다. 이를 통해 자료의 변동성을 확인할 수 있었다. 특히 표준편차가 40초 정도로 작은 것...2025.04.27
