
총 171개
-
자료에 극단값이 포함된 경우 극단값 처리에 대한 논의2025.01.281. 극단값의 정의와 특성 극단값은 데이터 집합에서 다른 값들과 큰 차이를 보이는 값으로, 일반적으로 데이터 분포의 상하위 1% 또는 3 표준편차를 벗어난 값을 극단값으로 간주한다. 극단값은 오류로 인해 발생하거나 데이터의 본질적 특징을 반영할 수 있다. 2. 극단값이 분석에 미치는 영향 극단값은 평균, 표준편차와 같은 주요 통계값에 큰 영향을 미칠 수 있다. 극단값으로 인해 데이터의 분포가 왜곡되어 정책 결정이나 연구 결과 해석에 오류를 초래할 수 있다. 3. 극단값의 처리 방법 극단값 처리 방법에는 극단값 제거, 다른 값으로 대...2025.01.28
-
군집화 (Clustering) 비지도 학습2025.05.101. 군집화 (Clustering) 군집화(Clustering)는 비지도 학습(Unsupervised Learning)의 한 종류로, 데이터를 서로 유사한 특성을 가진 그룹으로 분류하는 기법입니다. 이를 통해 데이터의 숨겨진 구조나 패턴을 찾거나 비슷한 특성을 가진 데이터를 그룹화하여 관측 및 분석할 수 있습니다. 군집화는 다양한 분야에서 활용되며, 고객 세그먼테이션, 이미지 분류, 소셜 미디어 분석 등에 사용될 수 있습니다. 대표적인 군집화 알고리즘으로는 K-평균 군집화, DBSCAN, 계층적 군집화 등이 있습니다. 2. 불량분석...2025.05.10
-
4차 산업혁명과 관련된 정보기술인 빅데이터의 개념, 특성 및 활용2025.01.041. 빅데이터의 개념과 특성 빅데이터는 다양한 원천에서 확보되는 방대한 양의 데이터를 가리킨다. 단순하게 다량의 데이터를 확보하는 것을 넘어서 데이터에서 가치를 추출하고, 그를 통해서 유의미한 결과를 도출하고자 한다. 빅데이터의 주요 특징으로는 규모와 다양성, 속도, 정확성, 가치 등이 있다. 2. 빅데이터 활용 기술 빅데이터를 활용한 기술로는 자연어처리 기술과 데이터 마이닝 기술이 있다. 자연어 처리는 다양한 기계 학습 기법을 통해 텍스트 데이터를 분석 및 이해하는 것이며, 데이터 마이닝은 다량의 데이터를 수집 및 분석해서 공통된...2025.01.04
-
범주형 데이터와 수치형 데이터의 의미 비교2025.01.261. 범주형 데이터 범주형 데이터는 관찰된 개체나 사건을 특정 범주나 그룹으로 분류하는 데이터를 의미합니다. 범주형 데이터는 수치가 아닌 범주로 표시되며, 각 데이터는 서로 다른 그룹에 속할 수 있습니다. 이러한 데이터는 값의 크기나 양을 비교하기보다는 분류하고 식별하는 역할을 합니다. 범주형 데이터의 주요 특징은 각 값이 고유한 그룹에 속하며, 데이터 간의 상대적 크기나 순위를 비교할 수 없다는 점입니다. 2. 수치형 데이터 수치형 데이터는 숫자로 표현되며, 양적 비교와 수학적 연산이 가능한 데이터를 의미합니다. 수치형 데이터는 ...2025.01.26
-
비즈니스 애널리틱스와 관련 기술의 정의 및 역사2025.01.261. 비즈니스 애널리틱스 비즈니스 애널리틱스는 기업의 의사 결정을 지원하기 위해 데이터를 분석하여 통찰력을 도출하고 이를 기반으로 전략을 수립하는 과정입니다. 비즈니스 애널리틱스는 20세기 중반 컴퓨터 기술의 발전과 함께 시작되었으며, 통계 기법, 데이터 마이닝, 예측 모델링, 인공지능 등을 활용하여 비즈니스 성과를 개선하는 것을 목표로 합니다. 2. 데이터 과학 데이터 과학은 다양한 형태의 데이터를 분석하고 의미 있는 정보를 추출하는 학문적 분야입니다. 통계학, 수학, 컴퓨터 과학 등을 기반으로 하며, 데이터 처리, 분석, 예측 ...2025.01.26
-
Kernel PCA & Spectral Clustering2025.01.131. Kernel PCA Kernel PCA는 편향이 큰 실세계의 데이터를 분석하는데 어려움이 있고, outlier data에 매우 민감한 linear PCA의 단점을 보완하기 위해 kernel trick을 수행한다. 하지만 분산이 가장 큰 축으로 데이터들을 정사영 시킬 뿐, clustering algorithm을 적용하지는 않는다. 2. Spectral Clustering Spectral Clustering은 군집화를 더 쉽게 하기 위해서 유사도 행렬 A를 통해 데이터들을 변형된 공간에 넣고, 후에 clustering algori...2025.01.13
-
21세기에 변하는 통계의 개념과 통계학이란 어떤 학문인지 서술하시오2025.05.141. 통계의 개념 통계란 '모집단에서 추출된 표본으로부터 모집단의 특성을 추론하는 과정'이라고 정의할 수 있다. 즉, 한 집단 내 구성원들의 속성을 파악함으로써 전체 집단의 특성을 유추하는 데 도움을 주는 도구라고 할 수 있다. 따라서 통계는 과학기술 발전 및 경제사회 변화 등 여러 가지 요인에 의해 끊임없이 변화한다. 2. 통계학의 특성 통계학에서는 '무엇을'이라는 질문보다는 '어떻게'라는 질문을 더 중요시한다. 즉, 어떤 사실을 발견하기 위한 방법론적인 연구라고 할 수 있다. 이런 점에서 통계학은 과학이라고 할 수 있다. 하지만...2025.05.14
-
4차 산업혁명과 관련된 정보기술인 빅데이터에 대한 개념과 특성, 활용 사례 및 문제점2025.01.171. 빅데이터의 개념과 특성 빅데이터는 기존의 관리 및 분석 시스템으로는 다루기 어려운 거대한 양의 데이터 집합을 의미하며, 데이터의 증가량, 다양성 및 처리 속도와 같은 세 가지 'V'로 특성을 요약할 수 있다. 또한 데이터의 변동성과 복잡성도 빅데이터의 특징 중 하나로 고려될 수 있다. 2. 빅데이터를 활용한 기술 빅데이터 기술에는 데이터를 저장하고 수집하며 공유하고 분석하고 검색하고 시각화하는데 필요한 다양한 기술과 도구가 포함되어 있다. 이를 통해 대규모 다양한 종류의 데이터를 저비용으로 처리하여 정보를 추출하고 예측을 가능...2025.01.17
-
비정형데이터분석 중간과제물 (2023, 만점)2025.01.241. 개인정보, 가명정보, 익명정보 개인정보는 생존하는 개인에 관한 정보로서 성명, 주민등록번호 등에 의해 개인을 식별할 수 있는 정보를 의미한다. 가명정보는 개인정보에 속하지만 개인의 동의 없이 활용이 가능한 정보로, 개인을 식별할 수 있는 정보를 마스킹하거나 범주화하여 제공한다. 익명정보는 개인을 식별할 수 없는 수준으로 정보를 변경한 것을 의미한다. 가명정보 활용이 개인정보 보호 측면에서 주의가 필요한데, 가명정보도 추가 정보가 있으면 개인을 식별할 수 있기 때문이다. 2. 비정형데이터 분석의 중요성 빅데이터 시대에 접어들면서...2025.01.24
-
어르신들 대상 치매예방교육프로그램 평가를 위한 설문조사 방법2025.05.031. 치매예방교육프로그램 평가 본 연구에서는 노인 대상 치매 예방 교육 프로그램의 유병률, 인지도, 참여 의향, 참여 경험, 재참여 의향 등을 조사하고, 프로그램이 시행된 지역의 3~5년 치매 발생률을 비교하여 프로그램의 효과를 추정하고자 한다. 설문조사를 통해 노인의 인구통계학적 특성, 지역사회 치매예방교육 인지도, 참여 경험, 참여 의향, 재참여 의향, 교육 내용 실천 여부 등의 정보를 수집하고, 향후 치매 발생률과 비교하여 프로그램의 효과성을 검증할 계획이다. 2. 계통 표본추출 방법 본 연구에서는 계통 표본추출 방법을 사용하...2025.05.03