hoririri 스토어

hoririri

개인인증

팔로워0 팔로우

소개

등록된 소개글이 없습니다.

전문분야 등록된 전문분야가 없습니다.

판매자 정보

학교정보

입력된 정보가 없습니다.

직장정보

입력된 정보가 없습니다.

자격증

입력된 정보가 없습니다.

판매지수

판매중 자료수

3개
전체 판매량

22개
최근 3개월 판매량

22개
자료후기 점수

-
자료문의 응답률

-

전체자료 3개

판매자 표지

데이터마이닝_출석수업_과제물

[작성 시 지시사항] : 작성서식, 분량, 지시사항 등 기술※ 유의사항1. 과제는 문제를 제외하고 답안만 기술하십시오.2. 문제 1번에 대한 답안은 아래아한글 기준 글자 크기 11pt, 줄간격 160%로, MS word 기준 글자 크기 11pt, 줄간격 1.5로 하여 공백을 제외하고 1,300자 이상으로 작성하십시오. 표절로 판정되지 않도록 조사 내용 및 자신의 주장을 독창적으로 각색, 기술하십시오.* 참고문헌을 표기하여도 문헌이나 인터넷, 또는 기타 자료상의 내용을 그대로 옮기는 경우에는 유사도에 근거하여 표절로 판정되니 유의하시기 바랍니다.3. 프로그램 코드 및 주석은 텍스트로 제시하고 실행 결과는 화면 캡쳐를 통해 그림으로 붙여 넣으십시오. 반드시 결과에 대한 설명을 함께 기술하셔야 합니다.4. 생성형 AI 사용은 금합니다.출석수업과제1. 최근 생성형 AI 발전에 따라 데이터 분석에 종사하는 전문가들의 역할에 대한 다양한 의견이 제시되고 있다.① 통계적 학습(Statistical learning) 또는 기계학습(Machine learning) 방법을 이용하는 데이터마이닝 전문가의 입장에서 생성형 AI의 발전이 향후 데이터마이닝 영역에 미치게 될 영향에 대해 논하고② AI 시대 데이터분석 전문가의 생존 전략에 대해 자신의 견해를 기술하시오. (8점)2. 목표변수가 범주형 변수인 형태의 데이터에 선형모형을 적합하고자 한다. R에 내장되어 있는 iris데이터를이용하여 다음을 실행하시오.① iris 데이터의 Species변수 값이 setosa인 50개 관측치와 virginica인 50개관측치를 합하여 100개의 관측치로 구성된 새로운 데이터세트 iris2를 생성하시오. (setosa를 1로, virginica를0으로 바꾸어 생성)② iris2 데이터에 Species가 종속변수이고 나머지 모든 수치형 변수가 독립변수인 다중선형회귀모형을 적합하는 코드를 작성하고 실행하시오(코드와 주석문은 텍스트로 기술). R 실행 결과를 캡쳐하여넣고 이를 해석하고 특징을 기술하시오오. (8점)3. 입력변수와 목표변수가 모두 범주형인 어떤 데이터의 두 입력 변수 X1과 X2는 1, 2, 3 등 세 가지 값을 갖고, 목표변수는 Y=1, Y=2의 2개의 범주를 갖는다고 할 때, 각 집단별로 X1과 X2에 대하여 분할표를 아래와 같이 생성하였다. 물음에 답하시오. (8점)Y=1X1123X2102520463201Y=2X1123X*************① 분할표를 보고 이 데이터의 원형을 유추하여 생성하시오. 단, 데이터 세트의 첫째 줄에는 변수명 X1, X2, Y를 명시하시오. (2점)② 지니지수를 이용하여 최초 분할 시 최적의 분리점을 찾으시오. (2점)③ 뿌리노드가 한번 분할된 분류의사결정나무를 생성하고, 두 자식노드에서 관찰치들의 집단별 빈도를 밝히시오. (2점)④ 위에서 생성된 분류의사결정나무(한 번만 분할)의 불순도 감소분을 계산하시오. (2점)4. 배깅, 부스팅, 랜덤포레스트에 관하여 다음에 답하시오. (6점) (교재에 명시된 알고리즘(p.116∼122) 참조)① 각 알고리즘의 수식을 기술하시오. (2점)② 각 알고리즘에 명시되어 있는 수식을 비교하여 타 알고리즘과 구별되는 특징적인 부분을 지목하여 설명하시오. (2점)③ 이를 바탕으로 극단값에 더 예민하게 반응할 수 있는 앙상블 방법이 무엇인지 쓰고, 그 근거를 밝히시오. (2점)문제1) 아래의 답은 예시입니다. 부디 자신의 언어로 수정 후 제출해주세요.최근 몇 년 사이 생성형 AI의 발전 속도는 예상보다 훨씬 빠르다. 과거에는 텍스트를 요약하거나 문장을 다듬는 수준으로 여겼지만, 이제는 코드 작성, 통계 분석 설명, 시각화 제안, 보고서 초안 작성까지 수행하고 있다. 이러한 변화는 통계적 학습이나 기계학습 방법을 활용해 예측 모형을 만들고 데이터를 해석해 온 데이터마이닝 전문가들에게 적지 않은 영향을 주고 있다. 다만 일각에서 말하듯 생성형 AI가 곧바로 데이터 분석가를 대체할 것이라는 주장은 다소 과장된 면이 있다. 기술의 발전이 직무 구조를 바꾸는 것은 사실이지만, 실제 현장에 하나를 짜기 위해 문법을 찾아보고 오류를 수정하는 데 시간이 많이 들었지만, 지금은 자연어로 요청하면 기본 코드를 즉시 제시한다. 의사결정나무, 랜덤포레스트, XGBoost, 군집분석, 시계열 예측 등 다양한 기법의 예제도 손쉽게 얻을 수 있다. 초급 분석가 입장에서는 생산성이 높아진 것이 분명하다. 기업 입장에서도 단순 반복 업무에 투입되던 인력을 줄이고 더 적은 비용으로 분석 결과를 얻으려 할 가능성이 높다. 이 점에서 생성형 AI는 데이터마이닝 시장의 진입장벽을 낮추고, 기존 실무자의 일부 업무를 대체할 수 있다.그러나 여기서 반드시 짚어야 할 문제가 있다. 생성형 AI는 “그럴듯한 답”을 만드는 데 강하지만, “옳은 답”을 보장하지는 않는다. 예를 들어 종속변수의 정의가 잘못되었는데도 적절한 모형인 것처럼 설명하거나, 데이터 누수가 있는 상태에서 높은 정확도를 제시할 수 있다. 변수 선택 과정에서 인과관계와 상관관계를 혼동하는 경우도 흔하다. 실제 기업 데이터는 결측치, 이상치, 표본 편향, 수집 오류, 법적 제한 등 교과서와 전혀 다르다. 이런 복잡성을 이해하지 못한 채 AI가 내놓은 코드를 그대로 실행하면 결과는 화려해 보여도 의사결정에는 오히려 해가 될 수 있다. 결국 생성형 AI는 분석의 보조도구이지, 책임을 지는 분석가 자체는 아니다.향후 데이터마이닝 영역은 양극화될 가능성이 높다. 기초 수준의 대시보드 작성, 단순 분류모형 구현, 정형화된 보고서 작성 업무는 자동화 비중이 커질 것이다. 반면 문제 정의, 실험 설계, 변수의 업무적 의미 해석, 결과의 위험성 검토, 경영진 설득과 같은 고차원 업무의 가치는 더 커질 것이다. 다시 말해 “툴을 다루는 사람”은 줄어들고, “문제를 해결하는 사람”은 남게 된다.그렇다면 AI 시대 데이터 분석 전문가의 생존 전략은 분명하다. 첫째, 알고리즘 사용자가 아니라 원리를 이해하는 사람이 되어야 한다. 회귀분석의 가정, 과적합 원인, 교차검증 의미, 평가지표의 한계를 알아야 AI가 낸 결과를 검증할 수 있다.능력이 중요하다. 분석 결과를 현업 부서가 이해하고 실행하게 만드는 능력은 아직 AI가 완전히 대신하기 어렵다. 넷째, AI를 거부하지 말고 적극 활용해야 한다. 코딩 보조, 문서 초안, 탐색적 분석 자동화 등은 AI에 맡기고 사람은 판단과 책임에 집중하는 방식이 현실적이다.결론적으로 생성형 AI의 발전은 데이터마이닝 전문가에게 위기이면서 동시에 기회이다. 단순 기술자에게는 위협이 되겠지만, 분석의 본질을 이해하고 산업 문제를 해결할 수 있는 전문가에게는 오히려 생산성을 높여 주는 강력한 도구가 된다. 앞으로 살아남는 사람은 AI를 두려워하는 사람이 아니라, AI의 한계를 알고 활용할 줄 아는 사람이라고 본다.문제2)문제2-① iris 데이터의 Species변수 값이 setosa인 50개 관측치와 virginica인 50개관측치를 합하여 100개의 관측치로 구성된 새로운 데이터세트 iris2를 생성하시오. (setosa를 1로, virginica를0으로 바꾸어 생성)코드> data("iris")> iris2 iris2$Species iris2결과문제2-② iris2 데이터에 Species가 종속변수이고 나머지 모든 수치형 변수가 독립변수인 다중선형회귀모형을 적합하는 코드를 작성하고 실행하시오(코드와 주석문은 텍스트로 기술). R 실행 결과를 캡쳐하여넣고 이를 해석하고 특징을 기술하시오. 이 데이터에 로지스틱 회귀모형을 적합하였을 때, R 실행 결과를 캡쳐하여 넣고 이를 해석하고 특징을 기술하시오.1) 다중선형회귀모형코드> df_lm summary(df_lm)결과해석종속변수: Species독립변수: Sepal.Length, Sepal.Width, Petal.Length, Petal.Width회귀모형 유의함: F=1183,`p data data [] str(data)> data결과문제3-② 지니지수를 이용하여 최초 분할 시 최적의 분리점을 찾으시오. (2점)코드> library(rpart)> tree1 tree1결과답최적 분리 변수: X1최적 분리점: X1X1=3과 X1=1,2로 분할된다.왼쪽 자식노드(X1 = 3): 14개- 집단 1: 12개- 집단 2: 2개오른쪽 자식노드 (X1 = 1, 2): 25개- 집단 1: 8개- 집단 2: 17개문제3-④ 위에서 생성된 분류의사결정나무(한 번만 분할)의 불순도 감소분을 계산하시오. (2점)- 뿌리노드 불순도1-( {20} over {39} ) ^{2} `-`( {19} over {39} ) ^{2} `=`0.4997- 왼쪽 자식노드 불순도1-( {12} over {14} ) ^{2} `-`( {2} over {14} ) ^{2} `=`0.2449오른쪽 자식노드 불순도1-( {8} over {25} ) ^{2} `-`( {17} over {25} ) ^{2} `=`0.4352자식노드 가중 불순도{14} over {39} (0.2449)`+` {25} over {39} (0.4352)`=`0.3669불순도 감소분0.4997`-`0.3669`=`0.1328답) 불순도 감소분 : 0.1328문제4. 배깅, 부스팅, 랜덤포레스트에 관하여 다음에 답하시오. (6점) (교재에 명시된 알고리즘(p.116∼122) 참조)문제4-① 각 알고리즘의 수식을 기술하시오. (2점)ⓐ 배깅배깅 방법을 실행하는 알고리즘을 분류문제에 대해서 정리하면 다음과 같다.① 훈련데이터 L`=` LEFT { (x _{i} ,`y _{i} ),`i`=`1,` CDOTS ,`n RIGHT }을 정의한다. 여기서 x _{i}는 입력변수 벡터이고 y _{i}는 목표변수이다.② L로부터 B개의 부트스트랩 데이터 L _{1} ,` CDOTS ,`L _{B}를 만든다.③ 각 부트스트랩 데이터 L _{1} ,` CDOTS ,`L _{B}에 대하여 분류기 T _{1} ,` CDOTS ,`T _{B}를 생성한다.흔히 T _{1} ,` CDOTS ,`T _{B}는 분류나무이다.④ B개의 분류기를 결합시켜 최종 예측모형 {hat{f}} (x)를 만든다.{hat{f}} (x)=arg`max _{j} ` LEFT { sum _{b.

통계·데이터과학과| 2026.04.28| 12페이지| 5,000원| 조회(98)

데이터마이닝, 방통대, 출석수업과제물, 통계데이터학과

미리보기

닫기
판매자 표지

데이터처리와활용_출석수업과제물_2026년_1학기

과제물 제출시 유의사항 문제번호와 과제명을 기재하고 답안을 작성한다. 하나의 pdf 파일로 작성하며, 보조파일을 제출하지 않 는다. ERD 작성의 경우 어떤 도구를 사용해도 무방함(손그림도 무방) 과제물과 관련없는 내용(본인의 연령, 직급, 인생 철학 등)은 포함하지 않는다. 본인이 직접 작성한 결과물, 해설만 포함한다. ( 부정행위 할 경우 0점 ) 출석수업과제물 프로젝트 관리 데이터베이스 설계 한 회사에서 직원들이 여러 프로젝트에 참여하여 근무 시간을 기록하고 있다. 현재 회사는 아래와 같은 하나의 테이블로 데이터를 관리하고 있다. emp_id emp_name dept_name dept_phone project_id project_name manager_name manager_phone hours E01 김철수 개발 02-1111 P10 쇼핑몰 이부장 010-5555 20 E01 김철수 개발 02-1111 P20 추천시스템 박부장 010-6666 15 E02 이영희 개발 02-1111 P10 쇼핑몰 이부장 010-5555 10 E03 박민수 마케팅 02-2222 P30 광고분석 정팀장 010-7777 25 E04 정지훈 마케팅 02-2222 P30 광고분석 정팀장 010-7777 18 문제 1. 기본 키 찾기(5) 위 테이블에서 각 행을 유일하게 식별할 수 있는 기본키를 찾으시오. 답) (emp_id, project_id) 문제 2. 함수 종속 찾기(5) 데이터를 분석하여 다음을 찾으시오. - 부분 함수 종속 답) emp_name, dept_name, dept_phone → emp_id에 종속 project_name, manager_name, manager_phone → project_id에 종속 - 이행 함수 종속 답) emp_id → dept_name → dept_phone project_id → manager_name → manager_phone 문제 3. 정규화(10) 위 테이블을 3단계까지 정규화하시오(중간 단계 테이블을 모두 포함해야 하며, PK/FK를 표시해야 함). 답) 1) 1정규형(1NF) - 각 속성은 더 이상 분해되지 않는 원자값만 가지므로 기존 테이블은 1정규형을 만족한다. WORK PK: (emp_id, project_id) emp_id emp_name dept_name dept_phone project_id project_name manager_name manager_phone hours 2) 2정규형(2NF) - 부분 함수 종속을 제거하여 직원 정보와 프로젝트 정보를 분리한다. EMPLOYEE PK: emp_id emp_id emp_name dept_name dept_phone PROJECT PK: project_id project_id project_name manager_name manager_phone WORK PK: (emp_id, project_id) FK: emp_id → EMPLOYEE, project_id → PROJECT emp_id project_id hours 3) 3정규형(3NF) - 이행 함수 종속을 제거하여 부서와 관리자 정보를 분리한다. EMPLOYEE PK: emp_id FK: dept_name → DEPARTMENT emp_id emp_name dept_name DEPARTMENT PK: dept_name dept_name dept_phone PROJECT PK: project_id FK: manager_name → MANAGER project_id project_name manager_name MANAGER PK: manager_name manger_name manager_phone WORK PK: (emp_id, project_id) FK: emp_id → EMPLOYEE, project_id → PROJECT emp_id project_id hours 그림입니다. 원본 그림의 이름: 그림1.png 원본 그림의 크기: 가로 4165pixel, 세로 2454pixel 문제 4. ERD 그리기(크로우풋표기법) < 한 회사에서 직원들이 여러 프로젝트에 참여하여 근무 시간을 기록하고 있다. 현재 회사는 아래와 같은 하나의 테이블로 데이터를 관리하고 있다. > 문제 1. 기본 키 찾기(5) 위 테이블에서 각 행을 유일하게 식별할 수 있는 기본키를 찾으시오. 답) (emp_id, project_id) 문제 2. 함수 종속 찾기(5) 데이터를 분석하여 다음을 찾으시오. - 부분 함수 종속 답) emp_name, dept_name, dept_phone → emp_id에 종속 project_name, manager_name, manager_phone → project_id에 종속 - 이행 함수 종속 답) emp_id → dept_name → dept_phone project_id → manag ko suhyu suhyu 2026-04-27T06:55:42Z 2026-04-27T08:04:58Z 2026년 4월 27일 월요일 오후 3:55:42 ..FILE:META-INF/container.xml ..FILE:META-INF/manifest.xml

통계·데이터과학과| 2026.04.27| 3페이지| 5,000원| 조회(54)

방통대, 데이터처리와활용, 출석수업과제물

미리보기

닫기
판매자 표지

통계학개론 출석수업 과제

2. 다음은 A, B 두 도시의 직장인을 각 10명씩 랜덤하게 뽑아 2026년 1월에 지출한 교통비를 조사한 데이터이다. 직장인의 2026년 1월 교통비 평균이 두 도시 간에 다르다고 할 수 있는지 두 모평균 비교 검정(t-검정)을 하기 위해 아래의 과정을 수행하시오.A도시 교통비85, 85, 52, 114, 58, 58, 62, 65, 101, 78B도시 교통비61, 92, 60, 36, 47, 19, 59, 56, 72, 98 (1) 귀무가설은 무엇인가? (2점)⇒ 두 도시의 평균 교통비가 같다. (2) 대립가설은 무엇인가? (2점)⇒ 두 도시의 평균 교통비가 같지 않다.<중 략>3. 초등학생의 방과 후 운동 참여 여부와 비만 여부 사이에 관련성이 있는지 알아보기 위해 초등학생들을 무작위로 표본 추출하여 다음과 같은 데이터를 얻었다. 방과 후 운동 프로그램에 참여하는 초등학생이 120명 중 18명이 비만이었고, 방과 후 운동 프로그램에 참여하지 않는 초등학생 130명 중 35명이 비만이었다. 방과 후 운동 참여 여부와 비만 여부는 서로 독립인지 검정하기 위해 아래의 과정을 수행하시오. (1) 귀무가설은 무엇인가? (2점)⇒ 방과 후 운동 참여 여부와 비만 여부는 서로 독립이다.

통계·데이터과학과| 2026.03.13| 5페이지| 3,500원| 조회(122)

방통대, 통계학개론, 출석수업 과제

미리보기

닫기