본문내용
1. 보건 빅 데이터(Health big data) 분석
1.1. 보건 빅 데이터(Health big data)의 정의
보건 빅 데이터란 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터의 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 다양한 종류의 대규모 데이터의 생성, 수집, 분석, 표현을 그 특징으로 하는 빅데이터 기술의 발전은, 다변화된 현대사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고, 개인화된 사회 구성원에게 맞춤형 정보를 제공함으로써 관리, 분석을 가능하게 하며, 과거에는 불가능했던 기술을 실현시키기도 한다. 이같이 빅데이터는 정치, 사회, 경제, 문화, 과학기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공하며, 그 중요성 또한 부각되고 있다. 보건분야에서는 보건복지서비스가 공급자 중심에서 수요자 중심의 복지체제로 변화하고 보건복지 관련 데이터량이 기하급수적으로 증가하면서 빅데이터의 전형적이 형태를 갖추고 있으며, 대상이 환자를 포함한 사람이어서 효율적 관리와 활용을 통해 무한한 가치를 창출할 수 있게 된다.
1.2. 보건정보 빅데이터의 통계분석
1.2.1. 고차원 회귀분석 및 분류방법
고차원 회귀분석 및 분류방법이란 기존의 선형 회귀분석이나 로지스틱 회귀분석과 같은 저차원 통계모형의 한계를 극복하고자 등장한 방법론들이다.""
고차원 회귀분석 및 분류 방법들의 주요 특징은 다음과 같다.""
첫째, 라소(lasso)는 모형의 예측 성능 향상과 변수선택을 동시에 할 수 있는 기법으로 해를 찾는 효율적인 알고리즘이 중요하다.""회귀분석에서 회귀계수의 추정량을 계산하기 위해 잔차의 제곱함을 최소로 하는 최소제곱법을 사용하지만, 설명변수의 개수가 증가하면서 설명변수들 사이의 상관관계로 인한 다중공선성이 존재할 수 있기 때문에 최소제곱 회귀계수 추정량의 분산이 증가하면서 추정회귀식의 예측정확도가 떨어지는 단점을 보완할 수 있다.""
둘째, 앙상블(ensemble) 방법은 단순모형을 결합하여 고성능의 모형을 찾는 방법으로 배깅(bagging), 부스팅(boosting), 랜덤포레스트(random forest) 등의 고차원 다변량의 방법이 응용된다.""앙상블 모형은 보통 분류모형에서 사용되고 있다.""
셋째, SVM(Support Vector Machine)은 주어진 자료들을 분리하는 가장 좋은 초평면을 찾는 방법으로 커널함수를 사용하여 찾아낼 수 있다.""이러한 고차원 회귀분석 및 분류 방법들은 스팸 필터링 알고리즘이나 문자인식 알고리즘을 개발하는 데 응용될 수 있다.""
1.2.2. 군집분석(clustering)
군집분석(clustering)은 어느 군에 속하는지 모르는 데이터를 가지고 유사한 자료들끼리 묶인 군으로 나누는 방법이다. 군집분석 방법은 인터넷에서 연관검색어 서비스를 하는 데 응용될 ...