*의* 스토어

*의*

개인

팔로워0 팔로우

소개

등록된 소개글이 없습니다.

전문분야 등록된 전문분야가 없습니다.

판매자 정보

학교정보

입력된 정보가 없습니다.

직장정보

입력된 정보가 없습니다.

자격증

입력된 정보가 없습니다.

판매지수

판매중 자료수

23개
전체 판매량

131개
최근 3개월 판매량

0개
자료후기 점수

평균B
자료문의 응답률

100%

전체자료 23개

작업연구 - 표준시간 측정실험

1. 용어 정의a. 표준시간그 작업에 맞는 적성과 숙련을 가진 작업자가 좋은 작업조건 하에서 소정의 작업을 표준작업방법과 작업조건을 유지하면서, 정신적으로 육체적으로나 무리 없는 양호한 작업 속도를 가지고 1 단위를 수행하는데 요하는 시간.b. Rating관측결과를 표준 속도로 보정한 값. 정미시간 = 관측평균시간 X Rating 계수2. 실험 내용 및 목적52장의 카드를 4조로 나누는 작업을 수행한다. 52장의 카드가 모두 나누어지면 작업 1 Set가 끝난 것으로 간주한다. 같은 방법으로 10회 작업을 실시하며, 작업 1회 당 30초를 표준으로 하여 Rating 100을 부여한다. 이 실험의 목적은 표준 시간에서 얼마나 벗어나는지, 즉, 작업을 늦게 하고 있는지 빨리 하고 있는지를 도구를 사용하지 않고 감각적으로 알아내는 능력을 익히는 것이다.3. 실험 방법a. 3명이 1조가 된다.b.한 명은 카드를 나누고 다른 한명은 시간을 잰다. 나머지 한명은 자신의 느낌으로 Rating을 구한다.c. 실험을 10회 반복하면서 데이터를 얻고 분석한다.4. 실험 결과a. 계산 및 결과도출은 통계 패키지인 MINITAB을 사용하였다b. 계산은 기존의 공식을 약간 변형하여 사용하였다.＜그림 １： MINITAB을 이용한 계산＞＜그림 ２： 계산 결과 정리＞＜그림 ３： 회귀분석 결과＞＜그림 ４： 잔차들의 정규확률 Plot＞이상값이 하나 존재하고 있으며 기준치에서 비교적 근접한 값도 보인다.＜그림 5 ： 데이터들을 Plot한 결과＞5. 결론작업 시간을 도구가 아닌 직감으로 파악하는 것은 어쩌면 ‘비과학적인’ 방법으로 생각될 수도 있다. 그러나 사실 우리 인체는 대단히 ‘과학적인’ 도구이기에 많은 노력과 경험을 통해 원하는 결과를 얻을 수 있으리라 생각된다. 이번 실험에서는 작업의 정도가 간단했기 때문에 ‘감’을 얻는데 비교적 짧은 시간이 소요 되었지만 그래도 반반 정도의 정확도를 보였으며 표준에서 많이 벗어날수록 더 많은 오차가 발생하였다. 실제 생산현장에서는 더 복잡한 작업도 있고 장시간의 업무로 인해 편차도 많이 벌어질 것이다. 그렇기 때문에 우리는 많은 연습과 시간 투자를 통해 자연스럽고 정확한 표준시간 관리를 할 수 있어야 할 것이다.

공학/기술| 2005.05.15| 4페이지| 1,000원| 조회(1,279)

인간공학, 산업공학, 작업연구

미리보기

닫기
SAS를 이용한 코딩 - 그래프 그리기 평가C아쉬워요

문제 1번data hw1;set work.sv1;run;proc print;문제 2번data hw2;set work.sv2;run;proc gchart data = hw2;VBAR comp/ LEVELS=6;vbar comp/ TYPE=PERCENT;vbar type/ MIDPOINTS = '단독주택' '연립주택' '아파트';vbar sex/ MIDPOINTS = '남' '여' GROUP=type;vbar sex/ MIDPOINTS = '남' '여' subGROUP=type;vbar type/ MIDPOINTS = '단독주택' '연립주택' '아파트'SUMVAR=safe TYPE=MEAN;proc gchart data = work.sv2;hbar comp;pie type ;proc gchart data = work.sv2;block safe/ group=type;run;proc print;

경영/경제| 2005.05.15| 6페이지| 1,000원| 조회(1,315)

SAS, 통계, 전산통계, 그래프, Chart

미리보기

닫기
SAS 프로그래밍 코드 예제

문제 3번1) 원래의 자료를 출력DATA HW3;SET WORK.SV3;RUN;PROC PRINT;2) 수학성적과 영어 성적에 대한 PLOTGOPTIONS RESET=GLOBAL GUNIT=PCT BORDER CBACK=NAVYCOLORS=(YELLOW) FTITLE = SWISSB FTEXT=SWISS HTITLE = 7 HTEXT=4;DATA HW3;SET WORK.SV3;RUN;TITLE1 'SCORE';TITLE2 'MATH & ENGLISH';FOOTNOTE H=3 J=L 'HOMEWORK NO3';AXIS1 OFFSET=(7,7);PROC GPLOT DATA=WORK.SV3;BUBBLE MATH*ENG= AGE / HAXIS=AXIS1;RUN;PROC PRINT;2) 성별에 따른 수학과 영어의 평균과 표준편차 등을 제시DATA hw3;SET work.sv3;RUN;OPTIONS LINESIZE=70;PROC MEANS DATA=hw3 MEAN STD;CLASS sex;VAR math eng;TITLE 'Score';RUN;4) 컴퓨터 성적에 대한 기술통계량TITLE 'Home work No.3';TITLE2 'HOW TO USE THE MEANS STATEMENT';DATA hw3;set work.sv3;RUN;OPTIONS LINESIZE=70;PROC MEANS DATA=hw3N NMISS MEAN CV MAXDEC=3 FW=10;VAR com;RUN;PROC SORT DATA=hw3 OUT=hw3a;BY sex;RUN;PROC MEANS DATA=hw3 MEAN STD;CLASS sex;VAR com;TITLE 'Computer Score';RUN;PROC MEANS DATA=hw3a MEAN STD;BY sex;TITLE 'Computer Score';VAR com;RUN;PROC MEANS DATA=hw3 NOPRINT;VAR com;OUTPUT OUT=hw3cMEAN=commean MAX=commax;RUN;PROC PRINT;TITLE2 'THE NEW DATA SET';RUN;5) 컴퓨터 성적에 대한 백분위 값들 외data hw3;set work.sv3;proc univariate data=hw3 cipctldf;var com;run;proc print;data hw3;set work.sv3;proc univariate data=hw3 trimmed=10;var com;run;proc print;data hw3;set work.sv3;proc univariate data=hw3 plot;var com;run;proc print;data hw3;set work.sv3;proc univariate data=hw3 freq;var com;run;proc print;

경영/경제| 2005.05.15| 6페이지| 1,000원| 조회(713)

SAS, 통계, 전산통계, 패키지

미리보기

닫기
[시계열분석] 시계열 자료분석 문제 풀이 평가A+최고예요

C o n t e n t s0. 들어가기 전에................21. 월별 생산액 자료 분석- Regression...3- Decomposition............112. 우유 생산량 자료 분석- Raw Data..17- Simple Moving Average............17- Double Moving Average...........213. 월별 고객 만족지수 분석- Exponential Smoothing..............264. 주간 신제품 생산량 자료 분석- Sample Autocorrelation Coefficient.........31- Sample Autocorrelation Function.............며 이제는 우리 주변에서는 통계적 요소를 - 정성적 또는 정량적인 - 많이 찾아 볼 수 있습니다. 산업 공학의 생산관리와 통계학의 시계열 분석의 만남은 이러한 시대적 추세를 잘 반영한 좋은 예라고 할 수 있을 것입니다.최대한 교수님의 의중을 파악하여 문제를 해결하려고 노력한 과제물입니다. 미흡하지만 한 페이지 한 페이지를 즐기는 마음으로 읽어 주셨으면 합니다.감사합니다.2005. 4월벚꽃이 흐드러진 어느 날1. 월별 생산액 자료 분석1) RegressionMINITAB을 이용한 시계열 분석방법 중 회귀분석을 통한 방법은 다음과 같다.자료의 형태는 추세 변동과 계절 변동이 혼합되어 있다. 시간이 지날수록 점점 판매량이 늘고 있으며, 그 사이에 계절 간 판매량 변동을 보여주고 있다. 추세 변동이 선형인지 아니면 다른 모형인지 MINITAB을 통해서도 알아 볼 수 있다.추세 분석 메뉴를 클릭하면 아래와 같은 창이 뜨는데 여기서 간단한 옵션들을 설정하고 그래프를 그리면 간단한 방법으로 추세를 알 수 있다. 물론 MINITAB의 결과는 어디까지나 참고 사항일 뿐이며, 어떤 추세 변동이 어떤 모형에 적합한지는 많은 그래프를 접하면서 몸에 익혀야만 할 것이다.과연 이 네 가지 모형 중에 적합한 모형을 어떻게 찾아야 할까? 바로 그래프 우측에 있는 MAPE값과 MAD값, 그리고 MSD 값으로 찾아야 한다.이들 세 값에 대해서 알아보면 다음과 같다.? MINITAB에서는 적합된 모형의 세 가지 정확도 측도를 계산합니다. 여기에는 각각의 단순 예측 및 평활 방법에 대한 MAPE, MAD 및 MSD가 포함됩니다. 세 가지 측도 모두 값이 작을수록 모형에 잘 적합됩니다. 다른 방법의 적합치를 비교하려면 이러한 통계량을 사용합니다.MAPE : 평균 절대 백분율 오차(Mean Absolute Percentage Error)를 의미하며 적합된 시계열 값의 정확도를 측정합니다. MAPE는 정확도를 백분율로 표시합니다.여기서 yt는 실제 값이고 t는 적합치이고 n은 관측치의 수입니다.MAD계절적인 변화라든지, 선거가 행하여진 시기라든지, 국제적인 대사건에 의한 심리적 동요 등의 경우는, 명백히 상품의 수요에 영향을 준다는 것을 알고 있어도 통계 숫자로서는 포착하기 힘든 요인이다. 그래서 평상시는 0, 선거가 있었던 시기만은 1의 값을 취하여 인위적인 변수로 그 영향도를 측정하는 수법이다. 경기예측 등 기타 여러 가지 경우에 이용된다.출처: 네이버 백과사전 (http://search.naver.com/search.naver?where=nexearch&query=dummy+variable&frm=t1)가변수는 다음과 같이 생성 할 수 있다.이제 MINITAB 워크시트에 값을 입력한다. 가변수들값과 t 값을 지정해서 워크시트에 빠짐없이 넣어주어야 한다. 입력 후 회귀분석을 실시하면 선형 추세식의 계수들이 최소제곱법에 의해 계산되어서 추세식을 구할 수 있다. 또한 옵션에서 추세를 예측하게 할 수도 있다.회귀 방정식이 계산되어 나왔으며 이 때 선형 추세식은 아래와 같으며,이 값을 에 제시된 추세식과 비교해 보면 거의 유사함을 알 수 있다.해당 제품의 생산량은 0.086 정도의 변화율을 가지고 있으며, 매년 꾸준히 성장하는 추세를 보이고 있고 특히, 6월, 7월, 8월에 생산량이 비교적 높다. 그러나 여름뿐만 아니라 겨울인 12월과 1월에 갑자기 높은 생산량을 보여주고 있는데, 생산이 소비에 맞춰서 된다면, 여름에 많이 소비되는 제품이면서 연말연시에도 많이 소비되는 제품이라고 할 수도 있다. 아니면 반대로 1,6,7,8,12월이 비수기일 수도 있다. 일반적으로 성수기 때를 대비하여 비수기 때 생산량을 높이는 생산 전략도 있기 때문이다 (이를 Postponement Production 이라고 한다). 구체적으로 어떤 상품의 생산량인지 알 수 없기 때문에 다른 예측은 더 하기 힘들지만 아마도 이 제품의 생산량은 꾸준한 성장 추세를 보이면서 약간의 계절 변동을 보여 줄 것으로 예측된다.참고적으로, 생산액과 생산량은 비례한다는 가정 하에 분석을 실시하였는데 비용 때는 판매 = 이윤이라는 공식이 성립하는 이상, 할 수 있는 만큼 많은 제품을 생산하려고 노력한다. 자체 공장으로도 주문을 감당하지 못할 정도로 생산량을 늘려야 한다면 외주를 주거나 야근 등을 통해서라도 수요에 공급을 맞추려고 할 정도로 생산량 증가는 기업에 있어서 매우 반가운 일이다.을 보면 계절성이 뚜렷하게 나타난다. 히스토그램에서 알 수 있듯이 7월과 8월에 특히 생산량이 증가하고 있음을 보여주고 있다. 회귀분석을 이용한 방법에서는 이런 계절적 효과를 뚜렷하게 알기 힘들었지만 분해법을 이용해보면 계절적 효과를 좀 더 확실하게 알 수 있다. 7월과 8월에 생산량이 많은 것으로 보아 음료수나 아이스크림의 생산량 자료가 아닐까 생각한다. 같은 계절상품이라도 에어컨이나 선풍기는 아닐 것이라고 생각되는데 에어컨과 같은 경우는 만드는데 걸리는 시간이 긴 편이고 일단 제품수명(유통기간)이 길기 때문에 소비가 많은 여름을 대비해서 겨울이나 봄부터 이미 생산량을 늘리기 때문이다. 하지만 아이스크림은 제조 시간도 짧고 유통기한도 있으며 만약 아이스크림을 미리 만들어서 냉동 창고에 수 만개씩 넣어 놓는다면, 낮은 아이스크림 단가 대비 재고비용의 증가로 이익을 보지 못하게 될 것이다.아래는 승법 모형을 적용한 결과이다. 큰 차이점을 보이지는 않는다.2. 우유 생산량 자료 분석1) Raw Data시계열 플롯을 그려보면 아래와 같다.일단 이 우유 생산량은 시간이 지남에 따라 점점 증가하는 추세를 보이고 있다. 또한 계절 변동이 매우 심해서 한 단위기간동안 최저 생산량과 최고 생산량이 큰 차이를 보이는데, 이는 계절별 젖소의 상태 및 계절별 소비량과 관계가 있다고 생각한다.2) Simple moving average단순이동평균법은 대해서 다음과 같은 공식을 사용한다.간단한 예로 최근 3개월간의 생산량이 100, 200, 300이라고 했을 때 단순이동평균법을 사용하면 (100+200+300) / 3 = 200 이고, 따라서 다음 달의 수요예측은 200이 되는 것이다. 이 방법은 매 번 실시하면 된다. 앞에서 각 MA값에 대해서 구한 평균값을 다시 단순이동평균법을 이용해 분석을 실시한다.단순이동평균법에 비해서 이중이동평균법은 좀 더 큰 기울기 값이 나오며, 예측 값도 단순이동평균에 비해서 상당히 크게 나온다. 과연 어느 것이 더 옳은 방법이며 보다 정확한 예측을 하느냐는 이제 더 이상 컴퓨터의 힘을 빌릴 수 없을 것이다.일반적으로 단순이동평균을 두 번 사용함으로써 일반적으로 추세선이 선형일 경우 단순이동평균법이 유용하고 선형일 경우는 이중이동평균법이 유리하다고 한다. 하지만 이런 이론적인 내용은 차치하고 그래프를 분석해 보더라도 이중이동평균이 좀 더 정확함을 알 수 있다. 과거의 추세를 보았을 때 우유의 생산량은 하향에서 상향으로 올라가는 시점임에도 단순이동평균에서는 값이 거의 비슷하거나 그 이하로 나오기도 하였다. 반면에 이중이동평균에서는 상승 추세를 반영하여 적당히 높아진 예측값을 제시하고 있었다.다만, 생산량을 결정 하는 데는 워낙 많은 외부 변수가 작용하기 때문에 단순히 이 분석만으로 어느 방법이 좋다 나쁘다는 말 할 수도 없다고 본다. 예측이 맞는지 틀렸는지는 시간이 지나가봐야 알 수 있기 때문이다.4) 참고 : Centered moving averageMINITAB을 이용하여 중심이동평균도 구할 수 있다. 다음은 그 결과이다. 정확도 측도에 의하면 평활에 대한 효과는 단순이동평균과 이중이동평균의 중간쯤 된다.3. 월별 고객 만족지수 분석1) Simple Exponential Smoothing지수 평활법은 평활을 할 때 먼 시점의 자료일수록 가중치를 적게 주는 방법이다. 이 방법의 장점은 먼 과거 데이터를 분석에 활용하되 최근 데이터에 가중치를 많이 둠으로써 최근의 추세를 좀 더 정확하게 반영하여 예측의 정확도를 높이는 기법이다.지수 평활법의 일반적인 공식은 다음과 같다.일단 공식에 지수는 보이지 않는다. 그러나 지수 평활이 계속 순차적으로 누적된다면 다음과 같은 식을 얻을 수 있을 것이다.이런 과정을 통하여 얻은 결과는 단순지것이다.

경영/경제| 2005.05.03| 35페이지| 1,000원| 조회(1,487)

시계열, 응용통계, 시계열 분석, time series

미리보기

닫기
[응용통계 탐색적 자료분석] 탐색적 자료 분석 문제 풀이

IE & ASAbove the RimContents0. 들어가기에 앞서.....21. 미국의 의료보장제도에 대한 만족도 자료 분석.......32. 상장된 금융회사의 주식가격 자료 분석153. 붓꽃의 꽃받침 길이자료 분석................264. 마치면서................32들어가기에 앞서바쁘신 와중에 많은 보고서를 검토 하시느라 수고 많으십니다.본 보고서는 한 달 반 동안 배운 EDA(Exploratory Data Analysis)의 이론적인 내용과 통계본석 도구인 MINTAB을 활용하여 주어진 과제를 수행한 결과물입니다.단순히 문제를 풀어보는 차원을 넘어 문제를 해결하는데 어떠한 방법과 이론이 있는지에 대해 충분히 숙지하고 고찰하여 과제를 해결하는데 역점을 두었으며 교수님께서 말씀 하신대로 학생이 아닌 사회인의 마음가짐으로 보고서를 작성하였습니다. 교수님께서는 물론 모두 잘 알고 계신 내용들이겠지만 만약 회사에서 상사나 고객에게 보고를 할 때 보고를 받는 쪽은 비전문가일 가능성도 배제 할 수 없기 때문에 누구나 이해할 수 있도록 자세한 설명을 하였으며(특히 1번문제 풀이와 동시에) 보고서의 내용뿐만 아니라 가독성에도 주의를 기울였기 때문에 본의 아니게 분량도 많아지게 되었습니다. 이 점 대단히 죄송하게 생각합니다.아울러 저의 개인적인 분석 내용과 견해가 너무 진부하거나 혹은 주제에 맞지 않을지도 모른다고 생각합니다. 하지만 독창적이고 간단명료한 견해를 밝히고자 많은 노력을 하였음을 알아 주시고 과제물 도중 부족한 부분이 있더라도 너그러이 이해 해 주시리라 믿습니다.부디 이 자료가 다음 EDA 과목 때 하나의 좋은 사례로써 유용하게 사용되었으면 하는 바램입니다.그럼, 시작하겠습니다.감사합니다.200볼 수 있다. 줄기 잎 그림은 히스토그램과 비슷하지만 히스토그램의 단점을 보완한 분석 도구이다. 히스토그램의 단점은 다음과 같다.- 자료의 실제값을 잃어버려서 정보의 손실이 있다.- 그림이 표현에 의해 왜곡 될 수 있다.또한 줄기 잎 그림을 작성하는 방법은 다음과 같다.① 데이터의 단위 파악 - 줄기와 잎의 단위 결정② 자료 하나하나를 줄기(큰 단위)와 잎(작은 단위)으로 분리③ 왼쪽열에는 줄기를 표시하고 각 줄기에 속하는 잎들을 옆으로 써 나감④ 각 열(줄기)의 잎의 수를 표시줄기 잎 그림을 MINITAB으로 그리는 방법은 다음과 같다.메뉴 바 ⇒ 통계학 ⇒ 탐색적 데이터 분석 ⇒ 줄기 - 잎 그림을 클릭한다.클릭하면 다음과 같은 창이 뜬다.① 변수를 입력한다② 이상값을 제거하고 그리고 싶은 경우 체크한다③ ‘확인’을 클릭클릭하면 다음과 같은 결과가 출력된다.대략적으로 정규 분포 형태를 보여주고 있음을 쉽게 알 수 있다. 다음은 상자 그림이다.4) 상자 그림상자 그림이란 자료의 다섯숫자 요약을 도표로 작성하여 자료의 특징을 파악하는 방법이다. 다섯숫자 요약시 사용되는 용어들의 의미는 다음과 같다.① 중위수 = m② Spread (H) = 사분위수의 퍼짐③ Step : Spread (H)의 1.5배④ Inner Fence : HU (or HL) ± 1 step의 값⑤ Outer Fence : HU (or HL) ± 2 step의 값⑥ Adjacent Value (인접값) = IF와 HU 사이에 있는 자료들 중 가장 큰 값IF와 HL 사이에 있는 자료들 중 가장 작은 값⑦ Mild Outlier (보통 이상값) : IFU 와 OFU, IFL 과 OFL 사이의 값⑧ Extream Outlier (극단 이상값) : OFU보다 크고 OFL보다 작은 값상자 그림 작성법은 다음과 같다.① HU와 HL을 연결하여 상자로 표현하고 중위수의 위치를 직선으로 나타낸다.② 상자의 양 RMx 가운데에서 인접값을 직선으로 연결한다. (Whisker)③ 보통 이상값과 극단 이상값을 기.(5) 문자값 변환다섯 숫자 요약 (중위수, 사분위수 2개, 최대값, 최소값), 일곱숫자 요약 (다섯숫자 요약 + 8분위수), 아홉숫자 요약 (일곱숫자 요약 + 16분위수) 등의 정보를 이용하여 자료를 요약하는 방법으로 데이터의 수에 따라 요약하는 가짓수가 결정된다.각 분위수의 약자는 다음과 같다.M : 2분위수 (중위수) H : 사분위수 E : 8분위수 D : 16분위수 C : 32분위수 B : 64분위수 Mid : (각 분위수의 큰값 + 작은 값) / 2 Spread : 각 분위수의 큰값 - 작은 값 = 각 분위수의 Spr미니탭을 이용하여 문자값을 계산하는 방법은 다음과 같다.메뉴 바 ⇒ 통계학 ⇒ 탐색적 데이터 분석 ⇒문자값을 클릭한다.다음과 같은 창이 열린다.① 변수명을 입력② 이 옵션을 선택하면 위크시트에 각각의 값이 저장된다.③ 확인을 클릭확인을 클릭하면 다음과 같이 결과가 나온다.이제 Mid값과 Spread 값을 이용하여 데이터를 분석 할 수 있다. Mid값의 변화 추이를 살펴보면 M < H < E < D의 추세를 보인다. 하지만 D 이후로는 다시 D > C > B 의 형태로(물론 C와 B의 Mid값은 M보다 크다) 커지다가 작아지고 있다. 이는 우향 왜곡과 좌향 왜곡이 혼합된 정규분포의 형태와 비슷하다고 할 수 있다. 실제로 각 문자값들은 수치적으로도 거의 차이가 없으며 이는 M = H = E = D... 라는 좌우대칭인 경우를 거의 만족한다.또한 정규분포 상태의 첨도는 다음과 같다.(K)EH = Spr(E) / Spr(H) - 1.704(K)DH = Spr(D) / Spr(H) - 2.274이제 첨도를 구해보면 다음과 같다.(K)EH = (69 / 44) - 1.704 = -0.1358(K)DH = (95 / 44) - 2.274 = -0.1149첨도가 0보다 작으므로 정규분포보다 좀 더 완만한(뾰족하지 않은) 봉우리를 가진 분포임을 알 수 있다. 반면에 꼬리부분은 정규분포보다 얇다는 것을 의미한다.(6) 결론간단한 데이터를 가지고 탐색적 자 보듯이 전체적으로 왼쪽에 치우친 형태임을 알 수 있으며 극단 이상값도 존재하고 있다.(2) 줄기 잎 그림문제에서 이상값을 제거하라고했으므로 체크 표시한다.자료가 왼쪽에 치우쳐있음을 쉽게 알 수 있다. 이상값인 277을 제거 했음에도 불구하고 235와 같은 이상값이 또 관측되고 있다. 과연 이 235는 보통 이상값인가? 아니면 극단 이상값인가? 좀 더 자료를 분석 해 보면 알 수 있을 것이다.(4) 상자 그림상자 그림을 그린 결과 277만이 극단 이상값임을 알 수 있었다. 자료의 분포는 대략 110 ~ 145 정도에 특히 밀집되어 있음을 알 수 있다. 자료의 퍼짐 상태는 고르지 못하며 오른쪽 꼬리가 긴 형태인데, 이는 Whisker의 길이로 짐작 할 수 있다.(5) 문자값Mid값들이 대체적으로 증가 추세를 보이고 있다. 이는 이 자료의 대부분이 그래프의 왼쪽에 모여있는 형태 (즉 오른쪽 꼬리가 긴 형태) 임을 알 수 있다. Spread 값을 통해서도 이러한 사실을 알 수 있다.여러 가지 도구를 통하여 이 자료는 오른쪽으로 꼬리가 긴 형태를 가졌음을 알 수 있다. 이러한 분포는 자료를 대칭형태로 변환시켜 주어야 한다. 왜냐하면 t 검정 등 많은 통계적 추론 방법들은 자료가 정규분포를 한다는 가정 하에 쓰이기 때문이다. 즉, 자료의 분포가 정규분포가 아니면 추정 및 검정을 하는데 문제가 생긴다.그렇다면 이 자료를 어떻게 하면 정규성을 보이도록 만들 수 있을까? 바로 자료의 변환이다. 지금부터 자료의 변환 방법을 알아보도록 하겠다.(6) 자료의 변환가장 기본적인 방법으로는 제곱근 변환과 로그 변환이 있다. 이는 Box - Cox 변환 방법의 일부분이다. Box - Cox 변환은 다음과 같은 방법을 사용한다.① XP : if, P > 0② Log X : if, P = 0③ -XP : if, P < 0이 때 P 값은 멱승(Power)이며, P값은 변환 사다리를 올라가거나 내려가면서 구한다. 변환 사다리를 그려보면 다음과 같다.P값...- 2- 100.20.30.512.음과 같다.자료가 대칭을 보이고 있다. 극단 이상값은 발견되지 않았다.(7) 결론대칭이 아닌 자료의 분포를 대칭인 분포로 바꿀 경우 장애가 되는 요소들 중 하나는 바로 이상값이다. 이상값은 자료를 변환 시키면 시킬수록 점점 더 자료의 정규 집단과 떨어져서 보통 이상값이라도 극단 이상값이 되는 경우가 있다. 이러한 이상값들은 미리 발견해서 제거한 다음 탐색적 자료분석을 수행해야만 한다.총 4개의 이상값을 제거 시키고 변환을 한 결과 그 전보다 좀 더 자료의 정규성이 뚜렷해졌다. P값이 커질수록 이상값은 더욱 더 정규성을 잃고 멀리 떨어져버리므로 원자료를 다룰 때 먼저 이상값을 발견 해 주는 것이 좋겠다. 변환된 자료는 아직까지도 오른쪽 꼬리가 더 길다. 이것 역시 남아있는 이상값의 영향을 받기 때문이라고 생각한다. 이상값을 하나 더 지울까 생각도 했었지만 원자료에서도 변환된 자료에서도 극단 이상값 판정은 받지 않았기 때문에 그냥 두고 분석을 하였다.이상값을 계속 지워나가면 언젠가는 원하는 분포와 결과를 얻겠지만 별다른 의미는 없을 것이다. 이상값을 계속 지워나가면서 자료를 원하는 대로 구성한다면 그것은 자료의 변환이 아닌 왜곡이다. 지극히 객관적인 데이터가 분석하는 사람의 주관적 판단에 의해 왜곡될 때 통계 역시 그 의미를 잃게 될 것이다.3. 붓꽃의 꽃받침 길이자료 분석(1) 그래픽 요약첫 번째 자료는 거의 정규분포를 이루고 있다. 그에 비해 나머지 두 자료들은 자료들이 약간 우측으로 치우친 분포를 보여주고 있다.(2) 상자 그림1종 자료의 정규성을 확인 할 수 있다. 2종도 아주 좋은 정규성을 보이지는 않지만 대체적으로 정규분포에 근사한다고 할 수 있다. 반면에 3종은 전체적으로 꽃받침 길이가 긴 대신에 자료가 가장 고르지 못하고 극단 이상값까지 가지고 있다. 자료의 분포는 3종이 가장 좋지 않다. 세 자료 모두 꼬리의 분포는 좌우 비슷하다고 할 수 있다.(3) 문자값1종의 문자값은 M = H = E... 의 분포를 보여주고 있다. 정규 분포이다. 반면 2종다.

경영/경제| 2005.04.18| 32페이지| 1,000원| 조회(713)

통계, 자료분석, 탐색적, EDA

미리보기

닫기