1. 범주형 데이터는 수치로는 측정이 가능하지 않는 데이터이며, 질적 데이터라고도 불린다. 범주형 데이터에는 명목형 데이터와 순서형 데이터가 있다. 명목형 데이터와 순서형 데이터의 차이는 순서의 유무 차이이다. 명목형 데이터는 순서가 의미가 없고 순서형은 순서에 의미가 있다. 명목형 데이터의 예시로는 성별, 성, 이름, 거주지역, 기혼여부, 출신 고등학교 등이 있겠다. 순서형은 학점(A,B,C), 국가신용등급, 자동차 에너지소비효율 등급, NRS 통증척도, GCS score 등이 있다.수치형 데이터는 수치로 측정이 가능한 데이터이며, 양적 데이터라고도 불린다. 수치형 데이터에는 이산형 데이터 및 연속형 데이터가 있다. 이산형 데이터와 연속형 데이터는 양적인 크기가 있지만, 이산형 데이터은 연속적이지 않는 반면, 연속형 데이터는 연속적인 관측 값을 나타낼 수 있다. 이산형 데이터의 예로는 보유하고 있는 자동차 대수, 자녀 수, 건물 층수 등이 있다. 연속형 데이터의 예로는 키, 체중, 통장 잔고, 살고 있는 집 평수, 3대 중량 등이 있다.2. 예전에는 인사이트를 가진 상태에서 데이터를 통해 증명을 했다면, 빅데이터 시대에는 많은 데이터에서 인사이트를 추출을 할 수 있다. 이러한 방식이 가능해진 이유는 수 많은 데이터를 자동으로 수집할 수 있을 뿐만 아니라 이러한 데이터를 분석할 수 있는 첨단 기술이 생겼기 때문이다. 시대가 더 발전하면서 이러한 빅데이터 분석은 점차 다양한 분야에서 점차 정교하게 이루어 질 것이라고 예상된다.현재는 빅데이터 기술 사용 유무가 기술 발전의 중요한 변수라면 나중에는 이러한 기술적 분석 방법은 전문가 혹은 외주 업체가 생겨나면서 중요도가 점차 떨어질 것으로 예상이 된다. 허나 데이터의 차이의 중요도는 점차 중요해 질 것이다. 이를 실제로 보여주는 것이 테슬라와 구글 자율주행 자회사 웨이모의 차이이다. 웨이모는 카메라만 사용할 뿐만 아니라 레이다를 사용해서 자율주행을 완성하려고 했다. 반면 테슬라는 인간이 운전할 때 시각에만 의지한다는 점을 들어 전방 카메라만 사용하였고 본인 회사의 자동차에서 수집한 데이터를 통해 자율주행 알고리즘을 점차 정교하게 만들었다. 레이다가 꼭 있어야 한다는 초반의 패러다임을 방대한 양의 데이터를 통해 뒤집어 버린 것이다. 웨이모는 구글의 자회사로써 수 많은 자본을 활용했음에도 불구하고 양산된 자동차가 없기 때문에 데이터를 수집하는데 어려움이 있었다.이렇듯 데이터를 얼마나 보유 유무에 따라서 기업의 생사를 바꿀 수 있다. 이러한 사실을 알기에 넷플릭스, 메타와 같은 기업들의 주가는 이용자 수 그리고 이용자들의 사용시간에 민감하게 반응하는 것이다. 데이터 주도권을 가지고 있으면 후발주자가 시장 진입을 못하게 할 수 있을 뿐만 아니라 주도권을 바탕으로 더 많은 데이터를 수집할 수 있다. 나는 비졍형화 된 데이터가 점차 무형의 자산으로써 인정을 받는 시대가 오면서 이러한 기조는 계속 될 것이라고 생각한다. 데이터 주도권을 바탕으로 점차 기업 또는 개인이 가시적인 성과를 보일 것이기 때 문에 점차 강조 되고 있다고 생각한다.3. 데이터 베이스 모델이란 데이터의 논리적인 관계와 구조화된 관계를 표현한 것이다. 데이터 베이스 모델은 대개 계층형, 네트워크형, 관계형 모델이 있다.계층형은 트리형태로 수직적이며, 부모 노드와 자식 노드가 일대다의 관계를 이루고 있다. 대표적으로 IMS, MUMPS, DMSII, FOCUS 등이 있다.네트워크형 데이터 모델은 계층형을 보완한 형태의 데이터 모델이며, 부모 노드와 자식 노드의 다대다 관계를 허용한다. 대표적으로 IDS, IDMS, RDM 임베디드, RDM 서버 등이 있다.관계형 데이터 모델은 계층형과 네트워크형의 단점을 보완한 모델이다. 데이터를 행과 열로 구성된 표로 나타내는 모델이며, 가장 이상적이다. 오라클 DBMS, MySQL, MsSQL 등 대부분의 데이터 베이스가 여기에 속한다.4. 데이터 품질관리를 잘하게 되면 공급 측면에서 다방면의 이득을 얻을 수 있다. 상품 뿐만 아니라 용역에서 효율성을 얻을 수 있으며, 오차를 줄일 수 있다. 이로써 고객의 만족을 얻을 수 있고 비용절감을 얻을 수 있으며, 고객과의 신뢰 관계구축, 빠른 의사결정을 할 수 있다. 반면 품질관리가 미흡할 때에는 많은 문제들에 대해 해결책을 얻을 수 없기에 기업은 막대한 손실을 입을 수 있다. 기업 경영의 성과가 떨어지게 되며, 고객과의 신뢰관계가 깨지고, 고객과의 원활한 거래 활동을 할 수 없다. 그렇기에 전반적인 기업 경영의 효율이 떨어지게 된다. 또한 데이터 품질관리를 미흡하게 되면 제품을 판매하는 국가나 전세계적인 기본적인 룰을 무시하게 될 수도 있다.실제로 일본기업 혼다 자동차는 2015년에 데이터베이스의 오류 때문에 766억원의 벌금을 낸 적이 있다. 혼다 자동차의 제품으로 발생한 사망 및 상해 보고가 누락 되었기 때문이다. 상망 및 상해 보고서는 사고의 패턴을 파악하여 인명 피해에 대비할 수 있는 중요한 자료이기 때문인데 혼다 자동차는 약 10년간 보고를 누락했다. 혼다가 추후에 보고한 바에 따르면 SQL 데이터베이스를 바탕으로 한 자사의 조기 경보 보고 시스템이 제대로 작동하지 않았다고 한다. 혼다 자동차를 타다가 사망이나 상해가 나게 되면 중앙시스템에 저장 되는데 이러한 사항이 누락되었는지 조차 파악하지 못하게 되었다고 한다. 임직원 조차 어떻게 데이터가 수집되고 어떠한 절차로 이루어 졌는지 파악하지 못했고 코딩 언어를 알지 못해 발생한 일이라고 한다. 코딩언어 중 ‘null’과 ‘0’이라고 표시된 부분이 누락 되었다는 표시인데 이조차 몰랐기 때문에 보고를 누락하게 됐다. 결국에는 766억이라는 막대한 벌금을 물게 되었다고 한다. 이는 데이터 관리를 제대로 관리하지 못했기에 발생한 문제이며, 잘못된 데이터 관리는 소비자의 불만 뿐만 아니라 법적인 문제까지도 보여주는 예이다.Reference1. HYPERLINK "https://ko.wikipedia.org/wiki/%EB%84%A4%ED%8A%B8%EC%9B%8C%ED%81%AC_%EB%AA%A8%EB%8D%B8" https://ko.wikipedia.org/wiki/%EB%84%A4%ED%8A%B8%EC%9B%8C%ED%81%AC_%EB%AA%A8%EB%8D%B82.https://ko.wikipedia.org/wiki/%EA%B3%84%EC%B8%B5%ED%98%95_%EB%AA%A8%EB%8D%B83.https://ko.wikipedia.org/wiki/%EA%B4%80%EA%B3%84%ED%98%95_%EB%AA%A8%EB%8D%B84. Margi Murphy, 혼다, “데이터베이스 오류때문에” 766억 벌금. 업계 사상 최대, Computerworld UK, 2015.01.12, Hyperlink "https://www.itworld.co.kr/tags/35161/%ED%98%BC%EB%8B%A4/91341" https://www.itworld.co.kr/tags/35161/%ED%98%BC%EB%8B%A4/913415. 장영재, 데이터과학개론, 한국방송통신대학교출판문화원(2022), p69
(1)1980년대 산아제한 정책과 함께 초음파 기계가 상용화 되었다. 초음파 기계를 통한 출산 전 성별 감별이 가능했고 남아선호사상이 뿌리깊게 존재했기 때문에 여아 낙태에 따른 성비 불균형 현상이 나타나게 된다.1990년은 심지어 백말띠의 해로 여아의 팔자가 드세다는 미신으로 성비가 116까지 이르게 된다.이에 정부는 낙태에 대한 단속을 벌였으나 이러한 풍조는 바뀌지 않았다. 2000년대가 되면서 딸이든 아들이든 크게 상관하지 않는 풍토로 바뀌어 성비는 110 이하로 줄어들게 되었고 2005년에 시행한 생명윤리법에서 수정 및 착상 단계에서 아이의 성별을 판단하며 낙태를 꺼리게 되어 점차 100의 수치에 가까워지고 있다.(2)대체로 경상북도는 서울특별시보다 총출생성비가 높다. 1990년에는 130.6으로 여아와 남아의 비율이100:130.6을 보이며, 기형적인 모습을 보여주고 있다. 1990년대 남아선호사상이 지방에서 더 심했을 것이라고 예측해 볼 수 있다. 시간이 지나면서 정책 및 사회적 풍조 변화로 총출생성비가 감소하는 모습을 보이고 있으며, 2019년도에는 서울특별시와 경상북도의 출생 성비가 역전하는 모습이 보인다.(3)1990년대 산아제한정책이 완화되어 합계출산율이 1.6 이었다. 1990년대부터 합계출산율이 점차 낮아지는 모습이 보이고 있다.1998년도에 IMF가 터지면서 청년들의 취업난이 심해졌고 취업 연령이 높아짐에 따라 출산율이 급격하게 감소했다고 추정되며, 가부장제도와 권위주의가 점차 사라지고 개인주의가 증가하여 아이를 안 낳는 모습을 보이고 있다.(1) 평균/중앙값/표준편차/분산/변동계수 구하기평균 > mean(score)[1] 47.44615중앙값> median(score)[1] 48표준편차> sd(score)[1] 20.10755분산 > var(score)[1] 404.3135변동계수> sd(score)/mean(score)[1] 0.4237972(2) Histogram of scoreBoxplot of scoreScore 줄기 잎 그림1 | 004582 | 13334588893 | 03557894 | 111334566785 | *************667886 | 147797 | 334788 | 299 | 09표본평균 의 분포모집단이 정규분포 )을 따를 때, 랜덤표본 , , 의 표본평균 는 정규분포 )을 따른다. 즉,~)따라서, 표준화된 의 분포는 표준정규분포를 따른다. 즉,Z=~N(0,1)
1. 국가통계의 이용을 개인, 기업, 정부의 측면에서 설명하라.정부에서 특정 목적을 가지고 국가적인 정보를 주기적으로 만드는데 이를 국가통계라고 한다. 국가통계를 활용하여 개인과 기업 그리고 정부는 합리적인 의사결정 또는 선택을 할 수 있다. 개인은 국가통계를 활용하여 합리적인 판단을 할 수 있다. 예를 들면 기대수명을 조사한 국가통계를 활용하여 은퇴시점을 결정할 수 있다. 기업은 국가통계를 활용하여 시장을 파악할 수 있고 이를 이를 통해 전략을 세울 수 있다. 예를 들어 혼인 및 이혼 자료 혹은 인구 총 조사를 활용하여 1인 가구를 위한 제품의 생산을 늘리는 판단을 할 수 있다. 정부는 국가통계를 보고 현재 상태를 파악하고 이를 토대로 정책을 추가적으로 만들 수 있다. 정책에 대한 국민의 합의를 도출 할 수 있을 뿐 아니라 정책에 실제로 효과가 있는지 판단할 수 있다. 예를 들어 정부가 혼인율과 출산율이 감소하고 있다는 통계를 본다면, 인구 수를 유지하기 위해 혼인 및 출산을 장려하는 정책을 펼칠 수 있다. 또한 출산율 통계를 추적 관찰하여 출산 장려정책의 실효성에 대해서도 파악할 수 있다.2. 통계학의 세가지 역할을 설명하라.첫번째로는 통계학을 바탕으로 자료를 수집할 수 있다. 시청률이나 여론조사 뿐만 아니라 인사이트를 얻기 위해 통계를 활용하여 연구를 할 수 있다. 두가지 약이 있을 때 어떠한 약의 효과가 우월한지, 약의 효과가 정말 있는 것인지 실험을 하고 통계를 활용하여 이에 대해 정보를 얻을 수 있다.두번째로는 자료를 요약하고 설명할 수 있다. 예를 들어 기업에 지원하는 사람이 상당수 있을 때 남녀 비율은 어떻게 되는지, 출신 대학교는 어떻게 되는지, 어떠한 연령대로 분포해 있는지 요약해서 일목요연하게 알아볼 수 있다. 수집한 자료를 그래프나 수치를 통해 보여줌으로써 다른 사람에게 편하게 전달할 수 있다.세번째로는 자료로부터 인사이트를 도출하거나 미래를 예측하고 대비할 수 있다. 개인, 정부, 기업은 데이터를 통해서 다음 스텝을 어떻게 밟아야 할지 본인의 지지율을 바탕으로 다음 이대로의 행보를 이어갈지 아니면 변화를 줄지 판단할 수 있다. 기업의 경우에는 세계 경제의 동향을 파악하여 공격적으로 사업을 늘려 나갈지 긴축을 할지 판단할 수 있다. 국가 역시 물가상승률을 파악하여 금리를 올릴지 동결할지 내릴지를 정할 수 있다.3. 캠핑카 판매지점의 판매량이 다음과 같은 확률분포를 가질 때 기대되는 평균 판매기대수 E(X)를 구하라.0x0.2+1x0.4+2x0.2+3x0.2=1.4E(X)=1.44. 다음 자료로 정규분포의 모수에 의한 변화를 같은 X축상의 분포도 그림과 함께 설명하라.B군은 A군보다 평균이 높기 때문에 X축 상에서 더 오른쪽에 위치한다. 또한 B군의 분산이 A군보다 낮기 때문에 평균을 중심으로 더 밀집한 형태를 보인다. A군은 평균 20을 전후로 상대적으로 평평한 모습을 보이는 반면 B군은 상대적으로 가파른 모습을 보이고 있다. 또한 모집단의 수가 커질수록 점차 연속적인 모습을 보인다. n=30일 때에는 연속적인 모습을 보이지 않으나 n수가 점차 커지면서 그래프가 연속적인 모습을 보인다. 또한 n수가 커질수록 대칭적인 모습을 보이며 봉우리가 뚜렷하게 보인다. 또한 동떨어진 듯한 자료가 상대적으로 적다.5. 다음의 인구피라미드에 대해 비교 설명하라왼쪽은 과거의 우리나라 인구피라미드 가운데는 현재의 우리나라 인구피라미드 오른쪽은 미래의 우리나라 인구피라미드를 나타내고 있다. 왼쪽의 인구피라미드는 시대가 전후이기 때문에 사망인구는 많았다. 그렇기에 나이가 많아질수록 인구가 줄어드는 모습을 보이며, 1960년도는 베이비 붐으로 출생자수가 크게 증가하였기 때문에 아래는 넓은 모습을 보여주고 있다. 그렇기 때문에 위가 좁고 아래가 넓은 피라미드 모양의 인구형태를 보이게 된다. 시간이 점차 지나면서 위생 개념이 증가하고 의료기술이 발달함으로써 점차 수명이 증가하게 된다. 1970년도에는 농경시대가 접어들고 산아제한을 하면서 출생자수가 증가하는 모습을 보이지 않고있다. 현재에는 여성의 사회진출 그리고 결혼을산의 모습을 보이고 있기에 가운데의 그래프는 방추형의 모습을 보이고 있다. 평균수명이 늘어나고 출생률이 저하되었기 때문이다. 마지막으로 오른쪽 그래프는 한국의 미래를 예측한 인구피라미드이다. 현재 출산율이 0.8명까지 내려갔기 때문에 급격하게 인구가 줄어드는 모습을 보이고 있다. 현재에는 사망자 수가 출생아 숫자보다 단지 많아지는 수준이지만 그 격차를 계속해서 벌릴 것으로 보인다. 늦게 낳고, 안 낳고, 덜 낳기 때문에 어떠한 변화가 없는 경우 오른쪽 같은 그래프의 모습을 보일 것이라고 기대된다.6. 출생성비의 정의와 최근 성비 변화에 대한 다음의 통계자료에 대해 설명하라.출생성비와 성비는 다른 개념이다. 출생성비는 여아 100명당 남아의 수를 말하며 (남아출생아/여아출생아)x100으로 나타낸다. 생물학적으로는 103에서 107사이가 정상이라고 한다. 예전에는 남아선호상으로 인해 출생성비가 115 이상까지 올랐다고 한다. 특히 셋째 이상의 성비는 200이 넘었다. 허나 현재는 그러한 문화적인 기조가 변했기 때문에 105를 기점으로 평균회귀하는 모습을 보이고 있다.성비는 여자 100명당 남자의 수를 나타낸다. 출생성비는 105명인 반면, 성비는 100명을 유지하고 있다. 출생아의 남아 사망률이 더 높기도 하고 남성의 평균수명이 여성의 평균수명보다 6년정도 낮기 때문에 발생하는 현상이다. 우리나라의 경우 100아래로 내려갔지만 외국인까지 고려한 경우에는 100을 넘어 남성이 여성보다 조금 많다고 한다.7. 통계분석 초기에 자료의 이상치를 파악하기 위한 검토 방법을 설명하라.변수가 하나인 경우에는 표준화 점수, 통계적 가설검정, 사분위수 범위를 사용해서 이상치를 탐색할 수 있다. 표준화 점수는 평균을 중심으로 표준편차가 얼마나 떨어져 있는지 확인하는 방법이며, 표준편차의 절대값이 3보다 큰 경우에는 이상치라고 대개 판단한다. 평균과 표준편차를 활용하기 때문에 이상치의 값을 사용한다는 단점이 있어 중앙값과 절대편차를 활용하는 방법도 있다. 통계적 가설검정은 이상치로 복적으로 수행하는 방법이다. 대표적으로 카이제곱 검정, 딕슨 Q검정이 있다. 사분위수 범위의 1.5배를 넘는 경우 대개 이상치라고 판단하며, 상자그림을 이용해서 쉽게 알 수 있다.변수가 두개인 경우에는 회귀진단, 미할라노비스 등이 있으며 회귀진단은 회귀식에 대한 전반적인 검토를 하고 영향을 미치는 극단치를 알아보는 것이다. 마할라노비스 거리는 자료 간의 거리를 활용하여 관측치가 평균보다 벗어나는 것을 측정한다. 변수의 개수를 고려하여 임계점을 넘어가는 경우 이상치로 생각한다.8. 모집단과 표본의 관계와 임의추출을 도표로 설명하라.조사대상이 되는 전체 집단을 모집단이라고 하며, 모집단에서 추출되어 모집단을 대표하는 일부분을 표본이라고 한다. 추출에는 다양한 방법이 있지만 가장 기본적인 방법은 임의추출이다. 말그대로 무작위로 추출하는 방법이며, 추출하는 연구자의 주관을 개입시키지 않는다. 연구자는 모집단의 전체를 조사할 수 없기 때문에 표본을 연구함으로써 모집단의 특성을 엿볼 수 있다. 모집단 전체를 연구하게 되면 많은 시간과 노력이 들기 때문이다. 표본이 너무 적게 되면 통계적으로 유의하지 않기 때문에 유의할 만큼의 표본을 선발하게 된다. 모평균, 모분산, 모표준편차를 알기에는 힘들기에 표본평균, 표본분산, 표본표준편차인 표본자료분석을 하여 모집단을 알 수 있다.9. 정규분포의 특징에 대해 설명하라.정규분포의 특징은 다음과 같다. 정규분포는 평균을 중앙으로 하여 좌우 대칭이다. 정규분포의 모양은 평균과 표준편차인 두가지 변수만을 통해서 나타낼 수 있다. 대부분의 관측치는 평균에 몰려 있으며, 하나의 극단을 가진다. 표본평균은 표본이 어느정도 크기만 하면 정규분포를 따르게 된다. 정규분포는 이항분포의 확률을 계산하는데 유용하다. 양극단으로 갈수록 X축에 접근하지만 닿지는 않는다.10. 자료의 그래프에 의한 표현의 장점과 그 종류를 설명하라.정보를 글자로만 나타나게 되면 한눈에 파악하기 힘들다. 점이나 선 또는 색깔을 사용하여 가시성을 높이게 되면 정보를 한눈에 파 경우에는 관측치의 변화와 추세를 직관적으로 알아볼 수 있다. 정보를 전달하는 것에도 편하다. 사람을 설득하는 데에도 용이하다. 수많은 말보다 관측치를 그래프로 나타내는 경우 상대방은 일목요연하게 파악할 수 있어 정보전달이 쉽다. 자료에 따라 적절한 그래프의 형태가 있다. 대표적으로 막대그래프, 꺾은선그래프, 원그래프, 산점도, 방사형 그래프 등이 있다.막대그래프는 관측 수치를 막대모양의 길이로 변환한 그래프이다. 크고 작음을 한눈에 알아볼 수 있기 때문에 이해하기 편하나 시간의 흐름을 나타낼 수 없다는 단점이 있다. 반면 꺾은선형 그래프는 관측 수치를 점을 표시하고 그러한 점을 잇는 그래프 이며 시간에 따라 변화하는 것을 기록할 때 유용하다. 원그래프는 각 관측치에 대한 백분율을 나타내거나 백분율을 단순 비교할 때 유용하게 활용할 수 있다. 방사형 그래프는 다각형을 통해 나타내는 그래프로 세 개 이상의 측정값의 치수를 시각적으로 나타내는 경우 유용하다. 산점도는 직교 좌표계를 이용해서 점을 찍는 방식의 그래프이다. 두 개의 변수의 관계를 나타내는 데에 유용하다. 변수 간의 관계를 수학적 모델로 확인해서 상관관계를 파악해 볼 수 있다.Reference1. 이태림, 생활과 통계(Statistics in Life), 한국방송통신대학교출판문화원(2015)2. 김진휘, 이상치 탐색을 위한 통계적 방법(Statistical methods for outlier detection))3. 위키백과, Hyperlink "https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_" https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC#:~:text=%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC%EB%8A%94%20%ED%8F%89%EA%B7%A0%EA%B3%BC,%EC%B6%95%EC%97%90%20%EB%8B%BF%EC%A7%80%EB%8A%94%20%EC%94.
Ⅰ. 금융투자를 통한 재테크의 필요성을 최근의 높은 인플레이션 위험과 관련해서 설명 해보시오. (15점)‘현금은 쓰레기다.’ 최근까지 레이 달리오가 주장했던 내용이다. 최근에는 FED에서 금리를 올려 레이 달리오는 생각을 바꾸었다. 하지만 이는 상당히 충격적인 발언이다. 나는 실제로 투자를 하고 있는 입장으로 이러한 발언에 대해서 깊게 생각해 보았다. 왜 현금은 쓰레기가 될 수 밖에 없는가?개인적인 생각으로는 소련의 멸망으로 인해 공산주의에 대해 터부시 되는 문화가 없어졌고 자본주의가 사회주의와 융화된 점이 큰 영향력을 미쳤다고 생각한다. 자본주의는 소수가 다수의 부를 독점하는 체제이며, 민주주의는 1인 1투표 시스템이다. 다수가 상대적으로 가난하지만 어떠한 사람이 권력을 얻기 위해서는 가난한 자의 지지를 받아야 된다. 1인 1투표 시스템이기 때문이다. 그렇기에 포퓰리즘을 하는 것이 현재에는 필수이다. 실제로 정치권에서 진보 보수로 나뉜다지만 항상 민생을 챙긴다는 공약을 내걸기에 바쁘다. 왜냐하면 그러한 정치행위가 본인과 당의 권력과 이어지기 때문이다. 또한 큰 정부를 지향하는 것은 중앙 집권적인 정부를 만들 수 있다. 이러한 포퓰리즘과 사회주의를 실현시키기 위해서는 정부는 많은 자본이 필요하다. 이러한 자본을 어떻게 충당하는가?세계 정부는 실질적인 세금 외에도 인플레이션 택스를 이용해서 돈을 벌고 있다. 마치 주식으로 따지면 유상증자를 하고 있는 셈이다. 돈을 지속적으로 살포함으로써 돈의 가치를 인위적으로 떨어뜨린다. 이러한 방법으로 세금을 징수하는 것은 직접적으로 돈을 뺐는 것으로 보이지 않기에 아무도 저항하지 않는다. 약 1억원의 돈은 10년 뒤에 7000만원의 가치를 지니게 되며, 1억원의 빚은 10년 뒤에 7000만원으로 탕감이 되는 것도 이 이유이다. 특히 미국은 달러를 찍는 기관에서 미국 국채를 사고 그 돈으로 재정정책을 펼친다. 현금을 들고 있으면 인플레이션이 야금야금 갉아먹고 있는 셈이다. 그렇기에 금융투자를 통한 재테크가 필요하다고 생각한다. 재테크란 현금을 다른 무언가와 ‘교환’함으로써 현금을 쓰레기로 만드는 인플레이션에 대비를 하는 것이다. 특히 요즘에는 인플레이션이라는 변수는 개인이 통제를 할 수 없기에 재테크를 하는 것이 필수라고 느낀다.현재에는 급격하게 금리를 올렸기 때문에 현금의 가치가 급격하게 상승하였다. 그러한 여파로 인해 경기침체의 문제가 수면 위로 올라오면서 주식, 부동산, 원자재 등의 모든 자산 가치가 다같이 떨어지지만 장기적으로 보았을 때는 현금은 역시 쓰레기일 수 밖에 없다고 생각한다. 왜냐하면 세계는 현재 성장의 동력을 잃어버렸으며, 러시아 우크라이나 전쟁의 발발로 인해 세계화의 물결에 금이 가고 자유 무역 체제가 파괴되는 모습이 보이기 때문이다. 나는 저성장 고물가의 시대가 오지 않을까라고 조심스럽게 예측을 해본다. 그렇기에 재테크를 통해 현금을 장기적 숏 포지션으로 가져가는 것이 인플레이션에 저항해 살아 남는 길이라 생각한다.Ⅱ. 금융상품은 일반적으로 수익성과 안전성 사이에 상충관계가 있다고 알려져 있다. 이에 대해 설명 해보시오. (15점)금융 세계에서는 높은 수익률에는 높은 리스크가 따른 다는 것은 불변의 진리에 가깝다. 또한 같은 전략과 같은 능력으로 다른 리스크를 높임으로써 수익률을 높일 수 있다. 내가 생각하는 리스크에는 레버리지, 전략, 타이밍 등이 있다.첫번째는 레버리지를 통해 리스크를 높일 수 있다. 대표적으로 부동산을 매입을 하게 될 때 전세나 대출과 같은 레버리지를 사용하게 되면, 리스크를 감수하는 대신 높은 수익률을 얻을 수 있다. 주식 역시도 미수를 끼거나 레버리지를 낀 선물 상품을 사용하게 되면 리스크는 높아지지만 역시 높은 수익률을 얻을 수 있다.두번째는 리스크가 높은 상품 또는 전략을 통해 리스크를 높일 수 있다. 리스크가 높다는 것은변동성이 높다라는 말과 동일하다. 변동성이 높은 상품을 활용하여 수익률을 높일 수 있다. 코로나 시기 때 캐시우드라는 금융 기업인은 미국 성장 혁신주를 바탕으로 ARKK라는 ETF를 만들었다. 코로나 이후 FED의 무제한 양적완화가 시작되자 엄청난 수익률을 보였다. 그러나 그 이후 일시적이지 않는 인플레이션으로 인해서 FED는 금리를 급격하게 올리게 되었고 ARKK는 다른 시장 추종 ETF보다 무지막지한 손실률을 보게 된다. 성장 혁신주의 가치는 기업의 미래 현금 흐름을 현재의 가치로 할인한 것이다. 그렇기에 금리가 낮아지게 되면 현재의 가치가 높아지고 금리가 높아지면 현재의 가치가 낮아진다. 가상화폐 투자 역시 변동성이 높기 때문에 높은 수익률을 얻을 수 있는 상품이다. 가상화폐에 레버리지를 끼는 경우 리스크를 지는 효과가 극대화 되기 때문에 수익률이 높을 수 있고 반대도 가능하다.세번째 리스크는 타이밍이다. 모두가 환호하고 자산시장에 환희를 할 때 리스크와 모두가 미래를 암울하게 보고 두려워 할 때의 리스크가 다르다. 변동성을 측정하는 대표적인 지수로는 빅스지수가 있으며, 변동성이 높을 때에는 빅스지수가 높다. 빅스지수가 높을 때 투자하는 것은 리스크를 지는 행위이다. 경제적으로 전망이 밝아 보일 때는 수익률이 낮으며, 모든 전망이 어두울 때는 수익률이 높다.리스크와 수익률이 상충관계를 보일 수 밖에 없다. 왜냐하면 리스크가 낮고 수익률이 높은 경우 투자자들이 몰려 수익률이 떨어지게 될 것이며, 리스크가 높고 수익률이 낮은 경우에는 투자자들이 투자하지 않을 것이기 때문이다. 이렇기에 리스크와 수익률은 대체적으로 음의 상관관계를 보인다. 투자를 할 때 수익률만 보고 투자를 하는 것은 장님이 코끼리를 만지는 행위와 비슷하며, 항상 리스크를 고려를 해야 한다.대표적으로는 샤프지수가 있는데 샤프지수는 수익률을 리스크로 나눈 지수이다. 투자를 하는 데 절대적인 수치는 아니지만 그래도 수익률과 리스크를 동시에 바라볼 수 있기에 참고할 만 하다고 생각한다. 변동성이 높은 상품도 적절한 배분을 통해 샤프지수를 높일 수 있다. 특히 상관관계가 독립적인 상품을 적절히 배분하고 이를 포트폴리오로 만들게 되면, 인플레이션, 디플레이션, 스태그플레이션 등 다양한 세계 경제 상황에 대처할 수 있다. 대표적으로 채권과 주식, 원자재를 배분된 올웨더 포트폴리오 등은 수익률은 높지는 않지만 리스크가 낮기 때문에 샤프지수가 높게 나올 것이다.
데이터마이닝1. 데이터마이닝은 데이터에서 의미를 추출하는 기법을 의미하며, 모수적 모형 접근방법과 알고리즘 접근 방법이 모두 활용될 수 있다. 모수적 모형 접근법과 알고리즘 접근법의 특징, 장 단점 및 사례를 조사하시오. 또한 SNS에 게시된 텍스트 데이터를 분석한다고 할 때, 어떠한 주제를 분석하면 좋을지 주제를 제안하고 어떤 방법을 이용하여 분석하면 좋을지 데이터마이닝 측면에서 논하시오. (7점)데이터마이닝에서 모수적 모델은 모수를 추정하는 모델을 통칭하며, 대표적으로 단순 선형 회귀분석은 예측변수와 반응변수의 관계를 직선으로 나타내고 Y=ax+b와 같은 모형으로 나타낸다. 예측변수를 통해서 반응변수를 예측해 볼 수 있는 이러한 방법은 결과 해석이 쉽고 결과값이 간단하다는 장점이 있다. 하지만 모수적 모델은 예측변수와 반응변수의 랜덤성이 있기에 변수의 오차값이 평균이 0이고 분산이 일정하다는 가정을 한다. 이러한 가정에 적용되지 않는 자료를 사용하는 경우에는 결과값의 성능이 낮을 수 있다는 단점이 있다. 대표적으로는 선형회귀모형과 로지스틱회귀모형이 모수적 모형 접근방법이다.알고리즘 접근방법은 주어진 알고리즘 방식으로 계산하고 결과를 분석하는 방식이며, 알고리즘을 통해 학습을 하게 된다. 다양한 방법들이 있으며, 적절한 알고리즘을 사용하는 경우 데이터가 분석하기 어렵다고 하더라도 적용이 가능하다. 알고리즘의 근본적인 개념이나 이론을 모르고 사용하게 되는 경우, 잘못된 방식으로 데이터마이닝이 될 수 있다. 대표적으로 과적합이 나타날 수 있다. 복잡한 알고리즘의 경우 사람의 이해를 벗어나게 되고 기계만 결과를 인지할 수 있는 단점도 있다. 대표적으로는 의사결정나무, 배깅, 부스팅, 랜덤포레스트, 신경망 모형 등이 있다.네트워크 사용자가 급속하게 발생하면서 SNS사용이 늘어났다. SNS를 통해서 사람들의 일상생활이나 개인적 취향이나 의견들을 엿볼 수 있는데 이를 데이터마이닝을 통해서 자료를 수집하는 경우 유의미한 결과를 도출할 수 있다. 특히 현실에서는 페르소나 감성분석 뿐만 아니라 연관분석 또는 군집분석을 통해 대중의 인식을 반영하는 정보를 얻을 수 있을 것이라고 기대된다.2. 와인품질 데이터에 로지스틱 회귀모형을 적합하고자 한다. 과거의 분석 경험을 통해 alcohol 변수와 sulphates 두 변수가 매우 중요한 변수라는 것이 밝혀졌다고 하자.>data=read.csv('/Users/suhwankim/Downloads/winequalityCLASS.csv',header=T)1) 이 두 변수만을 입력변수로 하여 와인 품질을 예측하는 로지스틱 회귀모형을 적합하시오.> fit.two=glm(quality~alcohol+sulphates, family=binomial,data=data)> summary(fit.two)Call:glm(formula = quality ~ alcohol + sulphates, family = binomial,data = data)Deviance Residuals:Min 1Q Median 3Q Max-2.4989 -0.8629 0.3303 0.8730 2.1077Coefficients:Estimate Std. Error z value Pr(>|z|)(Intercept) -14.25615 0.93981 -15.169 fit.step=step(fit.all,direction='both') 함수를 이용해서 단계전 선택법에 의해서 유의미한 입력변수를 조사했더니 모든 변수가 유의미하게 나왔다. P값이 0.05가 넘지 않은 Chlorides도 AIC를 높일 수 있는 입력변수로 나왔다.3) 변수 선택을 하여 몇 개의 변수만 선택하고 분석한 결과와 비교하시오.R 결과 중Intercept에서 ***평가를 받은 변수인 volatile, totalSD, alcohol, sulphates를 선택하여 분석해 보았다.> fit.four=glm(quality~volatile+totalSD+alcohol+sulphates, family=binomial,data=data)> summary(fit.four)Call:glm-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 1647.5 on 1193 degrees of freedomResidual deviance: 1247.0 on 1189 degrees of freedomAIC: 1257Number of Fisher Scoring iterations: 4모든 변수를 포함해서 데이터 분석을 하는 것보다 AIC=1257로 높게 나왔다. 그렇다고 하더라도 전체 입력 변수를 넣었을 때의 AIC=1246 보다는 많이 높지는 않아서 중요하지 않는 변수를 제거하는 것이 데이터의 양이 ‘빅데이터’ 라고 불리울 정도로 많을 때 필요할 수 있을 것이라고 생각이 든다.3. 어떤 데이터의 두 변수 X1과 X2는 1, 2, 3 등 세 가지 값을 갖고, 목표변수는 Y=0, Y=1의 2개의 범주를 갖는다고 할 때, 각 집단별로 X1과 X2에 대하여 분할표를 아래와 같이 생성하였다. 다음 물음에 답하시오. (8점)Y=0 Y=1 INCLUDEPICTURE "/var/folders/xw/y57lrf817s979bhm0qdrr3xc0000gn/T/com.microsoft.Word/WebArchiveCopyPasteTempFiles/page1image6642592" * MERGEFORMATINET 지니지수를 이용하여 최적의 분리점을 찾으시오.data=read.csv('/Users/suhwankim/Downloads/coronavirus/R/CART.csv', header=T)> data$X1=factor(data$X1)> data$X2=factor(data$X2)> data$Y=factor(data$Y)> library(rpart)> xdata=rpart(Y ~ ., data=data, method="class")> summary(xdata)Call:rpart(formula =s as RRL, improve=1.529443, (0 missing)Surrogate splits:X2 splits as RLL, agree=0.641, adj=0.067, (0 split)Node number 2: 24 observationspredicted class=0 expected loss=0.3333333 P(node) =0.6153846class counts: 16 8probabilities: 0.667 0.333Node number 3: 15 observationspredicted class=1 expected loss=0.1333333 P(node) =0.3846154class counts: 2 13probabilities: 0.133 0.867X1 splits as LLR, improve=5.251282, (0 missing)Rpart를 이용하여 나무 모형 알고리즘을 적용하게 되면, 위와 같은 결과가 나온다. X1 1과 2를 좌측 3을 우측으로 했을 때 최대의 개선도를 보이기 때문에 이는 최적의 분리점으로 생각된다.뿌리노드가 한번 분할된 분류의사결정나무를 생성하고, 두 자식노드에서 관찰치들의 집단별빈도를 밝히시오.> my.control = rpart.control(maxdepth = 1)> xdata2 = rpart(Y ~ ., data=data, method="class", control=my.control)> summary(fit.data)Call:rpart(formula = Y ~ ., data = data, method = "class")n= 39CP nsplit rel error xerror xstd1 0.4444444 0 1.0000000 1.3888889 0.16642912 0.0100000 1 0.5555556 0.7222222 0.1635511Variable importanceX1 X294 6Node number 1: 39 observations, complexity param=0.4444444predicted class=1rvationspredicted class=1 expected loss=0.1333333 P(node) =0.3846154class counts: 2 13probabilities: 0.133 0.867mycontrol을 사용해서 maxdepth를 1로 설정하였다. 결과에 따르면 왼쪽 노드에 24개의 관측치 그리고 왼쪽에는 15개의 관측치가 할당되었다.(3) 위에서 생성된 분류의사결정나무(한 번만 분할)의 오분류율을 계산하시오.> xdata3=predict(xdata2,newdata=data,type='class')> result=table(data$Y,data3)> result=table(data$Y,xdata3)> print(result)xdata30 10 16 21 8 13Predict함수를 사용해서 데이터셋을 예측하였고 이를 표로 나타내었다. Y=0 이라는 것을 맞춘 것은 16건이었고 Y=1이라는 것을 맞춘 예측 관측치는 13건 이었다. 이로 오분율을 계산한 결과는 다음과 같다.1-(16+13)/39=0.2564. 아래와 같은 범주형 변수 X1이 있다고 하자. 총 관찰치의 수는 18개이며 흰 색집단에 10개, 검정색 집단에 8개의 관찰치가 포함되어 있다. 이 데이터에 CART 방법의 지니지수를 이용하여 분할집합을 찾으려 한다. 아래의 표를 채우고, 최적의 분할집합을 찾으시오. (8점)지니지수 가중평균 계산식과 결과값은 다음과 같다.좌측분할 a 우측분할 b,c=(1-(4/6)^2-(2/6)^2)*6/18+(1-(6/12)^2-(6/12)^2)*12/18=0.481좌측분할 b 우측분할 a,c=(1-(2/7)^2-(5/7)^2)*7/18+(1-(8/11)^2-(3/11)^2)*11/18=0.401좌측분할 c 우측분할 a,b=(1-(4/5)^2-(1/5)^2)*5/18+(1-(6/13)^2-(7/13)^2)*13/18=0.448가중평균 값이 가장 낮은 ‘좌측분할 b 우측분할 a,c’가 최적의 분할집합이다. INCLUDEPICTURE "/var/folders/xw니다.