Auto Detection Clustering정보통계학과 데이터 마이닝 B조Data Mining-B team군집분석의 개념모집단 또는 범주에 대한 사전 지식이 없으므로 전체를 이해할 수 없을 때 군집분석이 좋은 기법이 된다.관측 값(개체)들 사이의 거리 또는 유사성을 이용하여 전체를 몇 개의 집단으로 그룹화 하고 요약하는 탐색적 자료분석방법.군집분석이란 주어진 관찰치 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여, 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 분석방법.군집분석 시 고려해야 할 사항각 분석의 목적에 맞는 관찰치의 성격을 최대한 반영하도록 하는 알맞은 변수를 선택하는 것이 우선이다. 주어진 변수들을 이용해 각 관찰치가 서로 얼마나 유사한지 또는 유사하지 않은지 측정할 수 있는 척도가 필요하다.군집의 유형병합적 방법 계층적 군집 분할적 방법 2. 상호 배반적 군집(비계층적 군집)ExampleFigure 10.1 The Hertzsprung-Russell diagram clusters stars by temperature and luminosity.Red GiantsMain SequenceWhite DwarfsTemperature (Degrees Kelvin)Luminosity (Sun = 1)Figure 10.2 K=2 Height and weight of a group of teenagers.Weight (pounds)Height(inches)비계층적 군집방법K-평균 방법계층적으로 군집을 형성시키지 않고 개체들을 몇 개의 군집으로 구분 초기에 부적절한 병합(분리)이 일어났을 때 회복 가능 군집의 수를 사전에 정의 개체의 수가 많을 때 유용K-평균 방법의 절차 군집의 수 K를 정의 초기 K개 군집의 중심선택 각 관측 값들을 가장 가까운 중심의 군집에 할당 새로운 군집의 중심예산 3),4)의 과정을 중심에 변화가 없을 때까지 반복K-평균 방법의 절차Figure 10.3 The initial seeds determine the initial cluster boundariesx₂x₁Seed 2Seed 1Seed 3Figure 10.4 Calculating the centroids of the new clustersx₂x₁Figure 10.5 At each iteration, all cluster assignments are re-evaluatedx₂x₁Figure 10.5 At each iteration, all cluster assignments are re-evaluatedx₂x₁K- 알고리즘의 단계데이터 베이스의 새로운 기록들이 공간에서 점으로 나타나야 하지만 우리가 접하는 마케팅이나, 영업등에서 접하는 데이터베이스는 그러하지않다. 그러한 레코드들을 공간에서의 점으로 표현하기 위해 모든 필드를 수치로 변환.접근의 문제점순위와 같은 모든 범주에 속해 변화하는 것과 많은 수의 변화하는 것을 포함하면서, 많은 가변의 형태는 적절하게 위치 벡터의 구성요소로 표현되기 어렵다는 문제점을 가진다. 기하학에서, 각각의 차수의 기여는 동일한 중요성이다. 그러나 우리들의 데이타베이스에서, 한 필드에 있는 작은 변화는 다른 필드에서의 큰 변화보다 많이 더 중요할 지도 모른다.A Variety of VariablesCategories (범주형) Ranks (순서형) Intervals(구간형) True measures두 점들 사이의 거리측정 두 점들 사이의 거리가 연관성 측도로 사용 두 점이 가깝다면 두 점들 사이의 상호관계가 비슷.Distance (X, Y) = 0 if and only if X=Y Distance (X, Y) ≥ 0 for all X and all Y Distance (X, Y) = Distance (X, Y) Distance (X, Y) ≤ Distance (X, Z) + Distance (Z, Y)Formal Measures of Association두 벡터 사이의 각도(구간변수)Big fishLittle fishBig catLittle cat두 벡터의 길이의 비율을 구한다면 비슷하다. 벡터사이의 각은 두 사물이 얼마나 떨어져 있는 가에는 영형을 받지 않는다.WHAT K-MENAS변수들 사이에 얼마나 많은 클러스터가 존재하는지 모르기 때문에 적절한 군집 수를 선택해야 좋은 분석결과를 낼 수 있을 것이다. 군집수의 결정은 적절한 다변량 통계분석법을 이용하는 주성분분석을 통해서 변수를 줄인다.ExampleFigure 10.7 K=2 clustered by color.Figure 10.7 K=2 clustered by Old Maid rules.Figure 10.7 K=2 clustered by rules for War, Beggar My Neighbor, and many other games.Figure 10.7 K=3 clustered by rules for Hearts.Figure 10.7 K=4 clustered by suit.가중치의 중요성Scaling 측정단위가 다른 개별 자료들을 비교하기위해 자재나 제품의 종류, 품질, 모양, 크기 따위를 일정한 기준에 따라 통일하는 것. Weights 어떤 대상이 속해있는 집단에서 다른 대상에 비해 상대적인 중요성을 수치로 나타낸 값을 말한다.Scaling 변수의 방법모든 값의 평균에 의한 각 변수의 분할 최소값으로 뺀 후 범위에 의한 각 변수의 분할 각 변수에 평균을 뺸 후 표준편차로 나눈다.Variation on the K-means Method서로 겹쳐진 군집들을 가지고는 좋은 결과를 얻을 수 없다. 군집들은 outliers의 영향을 많이 받는다. 각 점들은 '어떠한 군집 안에 있다' '밖에 있다'라는 개념을 가지고 있지 않다.K-means의 결점K-means 분석 시 고려해 볼 수 있는 사항초기값을 선택하는 교체 방법. 그 다음 중심을 계산하는 교체 방법. 레코드 들을 클러스터와 함께 결합시키기 위하여 오히려 거리 보다는 확률 밀도를 사용한다.Gaussian mixture models이란K-means의 또 다른 변형적인 방법으로 높은 차원의 문제를 위해 종종 가정된 확률분포.Estimation step(평가 단계) Maximization step(최종 단계)ExampleFigure 10.12 In the estimation step, each Gaussian is assigned some responsibility for each point.x₂x₁G1G3G2ExampleFigure 10.13 Each Gaussian mean is moved to the centroid of all the data points weighted by responsibilities for each point.x₂x₁먼 개체들을 나누어 가는 방법 먼저 N개의 개체를 2개의 군집으로 나누는 것으로부터 시작되어 병합적 방법의 역순계층적 군집분석병합방법가까운 관측 값(군집)끼리 묶어가는 방법분할방법병합방법N개의 관측 값들로 N개의 군집형성. 가장 가까운 두 군집을 병합. 2) 의 과정을 모든 관측 값이 하나의 군집에 포함 될 때까지 반복.병합방법의 종류최단연결법 : 최단거리 사용고립된 군집을 찾는데 중점최장(완전)연결법 : 최장거리 사용군집들의 내부적 응집성에 중점중심연결법 : 중심거리 사용최단거리중심거리최장거리두 집단간의 거리탐색적인 기법. 다양한 형태의 데이터에 적용가능. 분석 방법의 적용 용이성.군집분석의 장점과 단점장점단점가중치와 거리정의가 어렵다. 초기 모수 (군집 수 K)에 민감하다. 결과 해석이 어렵다.군집분석 사용 시기대용량의 복잡한 데이터의 전체에 대한 윤곽을 잡고자 할 때 사용 다른 분석을 위한 사전 단계로 쓰여짐{nameOfApplication=Show}
국내 인터넷 사용자 수 추정 방법에 대한 연구Ⅰ. 서론1. 조사 배경 및 필요성인터넷의 이용자 수는 과연 얼마나 될까. 현재 급속도로 확산되고 있는 컴퓨터의 보급과 각종 멀티미디어 기술의 발달, 정보의 상업화 등에 힘입어 인터넷 이용자 수도 기하급수적으로 증가하고 있다. 인터넷은 IP Address(인터넷 주소), 도메인 이름, 호스트 등 인터넷자원 통계지표로 볼 때 전년대비 수배에서 수십 배에 이를 정도로 폭발적으로 확산되고 있으며 특히, 웹과 데이터베이스의 상호연계 기술 발달은 단방향 정보의 소개에서 양방향 정보공유를 가능하게 하여 인터넷 발전을 가속화하였다. 좀 더 자세히 국내 인터넷이용자수 급증 요인에 대해 알아보면 첫째, 사회적 측면으로는 사회적 인식변화와 벤처 창업 열기, 지정학적 특수성 등이 있다. 둘째, 문화적 측면으로는 유교 문화적 특수성, 주거형태 특수성, 인터넷 PC방 급증이 있다. 셋째, 정책적 측면으로는 정책의 일관성 및 경쟁 도입, 인터넷보급 정책과 교육정책의 변화, 범국가적 홍보 벤처기업중심의 지원, 인터넷 정책 개방성 등이 있다. 넷째, 기술적 측면으로는 인터넷 인프라 확충, 초고속국가망사업, IT산업에 기술적 집중 지원 등이 있고, 다섯째, 비즈니스 측면에는 인터넷 인프라 투자, 소규모 기업(SOHO)의 부각, IT 산업인식 변화와 IT산업체 증가 등이 있다. 이와 함께 정보통신시장에 대한 경쟁도입, 21세기 인프라 구축을 통한 공격적인 서비스 공급, 외환위기 극복을 위한 수요의 변화(기업-->가정, 개인)적인 면을 더해 인터넷의 이용의 확산을 가져다 주었다. 이와 같은 변화에 맞추어 나아가려면 인터넷 이용자 수가 어느 정도 되는지를 알아 볼 필요가 있다. 하지만 아직까지 인터넷을 얼마나 많은 사람들이 사용하는지 정확한 통계 조사가 이루어지고 있지 않은 실정이다. 그렇다면 과연 정확한 인터넷 이용자 수를 측정하기 데에는 어떠한 방법들이 있는지에 대해 연구해 보고, 가장 효율적인 방법을 찾아 볼 필요가 있다고 판단된다.2. 조사의 리나라에서 본격적으로 시작된 것은 1999년 이후이며, 한국인터넷정보센터(KRNIC)에서는 1999년 10월 이후 주기적으로 조사를 실시하여 2000년 12월까지 4차례의 조사를 실시하였다. 현재 인터넷 이용자에 대한 정확히 정의하는 곳은 없다. 즉, 인터넷 이용자는 국가의 인터넷 환경 및 기타 상황과 조사목적에 따라 달라지며, 각 조사 기관마다 고유한 조작적 정의를 따르고 있음을 의미한다. 이용자는 국가의 인터넷 환경 및 기타 상황과 조사목적에 따라 달라지며, 각 조사 기관마다 고유한 조작적 정의를 따르고 있음을 의미한다. 한국인터넷정보센터에서 실시하고 있는 거시적인 인터넷 이용자 조사에서의 인터넷 이용자에 대한 조작적 정의는 인터넷을 초기에 이용하는 사람과 신규로 이용하는 사람들을 포괄할 수 있는 정의를 통해 '활발하게 인터넷을 이용하는 사람'과 '활발하지는 않으나 장래 활발한 이용이 기대되는 사람'의 규모를 모두 측정하려고 하였다. 이에 따라 국제적으로 가장 보편적으로 적용되고 있고, 포괄범위가 넓은 '월 평균 1회 이상 인터넷을 이용하는 자'(표 1참조)로 규정하였다. 또한 인터넷이용자 조사대상자는 초등학교 이상인 만 7세 이상 인구를 대상으로 하고 있어 타 조사기관에 비해 가장 넓게 적용하고 있다.{자료출처 : 인터넷 매트릭스기관별 인터넷 이용자 정의 사례2. 인터넷 이용자 현황국내 인터넷 이용자수는 다양한 조사방법으로 산출될 수 있는 것으로 인터넷 이용자의 정의, 근거자료, 추정방법 등에 따라 차이가 많이 날 수 있다. 한국인터넷정보센터는 '94년부터 인터넷 이용자수를 추정하여 산출하고 있다. '94∼'96년도의 인터넷 이용자수는 호스트 수에 10배를 곱하는 루빈스키 기법을 이용하여 산출하였으나, 인터넷이 확산되고 이용 방법이 다양해짐에 따라 '97년 말부터는 ISP의 가입자수를 바탕으로 한 보조통계 조사기법을 적용하여 산출하고 있다. 여기에서 인터넷 이용자란 인터넷 서비스를 제공하는 기관을 통해 인터넷 서비스를 이용하는 개인을 말한다. 인터넷 서비있다. 대부분의 WAP사업자는 ISP사업자에 비해 규모가 작아 창업과 폐업이 활발한 가운데 2002년 5월말 현재 1267개가 넘는 것으로 추정되고 있다. ISP사업자는 2002년 5월말 85개가 서비스를 제공하고 있으며 이중에서 비영리 인터넷망은 6개로서 연구전산망연구를 목적으로 운영되고 있는 연구전산망(KREONET), 정부의 초고속 국가망 사업의 하나인 초고속국가망인터넷(PUBNETPLUS)과 초고속국가망인터넷 서비스(PUBNET), 학술활동, 학교연결을 목적으로 운영되고 있는 교육망(EDUNET) 그리고 한국과학기술정보연구원(HPCNET)과 한국전산원(6KANET)이 있다. 영리목적의 ISP는 '94년 한국통신의 KORNET(94년 6월)을 비롯하여 데이콤의 BORNANET( 94년 10월), 아이네트의 NURINET(94년 11월)등이 제공되면서 시작되었다. '95년에는 하이텔을 비롯한 PC통신 사업자들이 인터넷 서비스를 제공하기 시작하면서 기존의 PC통신 사용자들에게 인터넷 서비스를 별도의 가입절차 없이 제공해 인터넷의 대중화를 앞당기는 역할을 하게 되었다. 또한 '95년부터 현대정보기술과 삼성SDS, 한솔텔레콤, SK텔레콤, LG인터넷 등 대기업을 포함하여 중소규모의 인터넷 사업자들이 매년 꾸준히 증가하고 있다 특히 '98년에는 기존 전용선보다 더 빠른 전송 속도를 내세우며 케이블망을 통해 인터넷 서비스를 제공하는 두루넷이 등장하였다. '98년 9월, 한국인터넷연동협의회가 설립되어 국내 인터넷망을 하나로 묶는 인터넷망 연결센터(KINX)를 운영하기로 합의했다. 경쟁관계에 있는 ISP들이지만 국제경쟁에서 공동의 이익을 창출하기 위해 현재 단일 인터넷 연동센터를 설립해 기존의 한국전산원이나 한국통신, 데이콤 등에서 운영하고 있는 IX(Internet eXchange)를 포괄하는 범국가적 단일 형태를 취하고 있다.{{{자료출처:한국인터넷정보센터국내 ISP 서비스별 가입자 현황(2002 . 5 기준)4. 도메인 및 호스트 현황(1) 도메인 현황{도메인이란계경제의 불황으로 IT산업의 침체 또한 가속되어 .kr도메인의 수가 2000년 대비 60,000여 개나 감소하였다.도메인의 구성 비율우리나라 도메인의 구성비율은 2001년 11월 30일을 기준으로 하여 .co가 85.75%로 가장 높은 비율을 차지하고 있다. 다음으로 .pe가 개인들의 도메인네임 보유욕구로 인하여 6.54%를 차지했으며, .or(4.11%), 교육기관(1.94%)으로 그 뒤를 따르고 있다.(2) 호스트 현황{호스트란 인터넷에 연결된 컴퓨터, 네트웍 장비를 나타내는 것으로 통계를 통해 산출되는 호스트는 인터넷에 연결되어 IP주소를 가지고 있으면서 이름이 네임서버에 등록되어 있는 컴퓨터, 네트웍 장비들을 의미한다. 호스트 수 현황은 인터넷의 양적 팽창을 나타내는 대표적인 지수로 쓰이고 있다. .kr 호스트수의 산출은 주기적으로 인터넷 호스트 수를 분석할 수 있는 DDT(Domain Debugging Tool)을 사용하여 KRNIC의 네임서버에 등록되어 있는 하위 네임서버에 기록된 호스트 수를 합계하여 산출한다.{자료출처:한국인터넷정보센터국내 호스트 수에 대한 통계그러나 아래의 도표에서 보듯이 호스트의 수의 증가율은 1995년을 정점으로 해서 점차 증가율이 둔화되고 있는 모습을 보이다가, 1999년 본격적으로 불기 시작한 인터넷 열풍을 반영하여 1999년 8월에는 국내 호스트 수 전년동기대비 158%라는 놀라운 증가율을 보였다. 하지만, 2000년에는 국내 호스트수의 포화현상을 조금씩 나타내기 시작하여 증가율이 현저히 감소하는 현상을 보였다. 인터넷 사용자의 수를 보통 호스트 수의 10배로 추정하기도 한다.5. 국내 인터넷 관련 통계 조사(1) 표본설계 및 추정가. 표본 설계1 층화◎ 지역별, 시부/군부별, 가구주 연령계층별 3단계 다단 층화- 인터넷 사용자의 분포는 시·도뿐 아니라 시부/군부별로도 차이가 있고, 성별, 연령별로 도 차이가 발생하므로 모집단을 3단계로 다단 층화2 표본수 결정표본 수는 소요비용과 조사행정력을 감안하고, 기존의 경험치를)집을 기준으로 순환적 계통추출을 하 되, 가구주 연령 계층별 비율에 따라 가구를 선정나. 인터넷 이용자수의 추정본 조사는 「2000년 주민등록인구」의 지역별 가구주연령 계층별 구성에 따라 표본 가구 수를 산출하여 조사하였고, 가구단위로 추출이 이루어짐에 따라 표본으로 선정된 가구원 구성이 모집단 구성과 다소 차이를 보임에 따라 사후층화방식(post-stratification)을 적용하여 지역별, 성별, 연령 계층별 구성비에 따라 조사결과에 가중치를 부여하여 인터넷 이용자수를 추정하였다.{{자료출처 : 통계청「2000년 주민등록인구」{지역별 모집단수 및 표본 수{자료출처:한국인터넷정보센터인터넷 이용자의 인터넷 이용률 및 이용자 수(2) 인터넷 이용자 수 추정 방법인터넷 이용자 수를 파악하기 위해 만 7세 이상의 국민들을 대상으로 2001년 12월 3일부터 12월 26일까지 실시한 표본 조사 결과로 인터넷 이용자 수를 추정하였다.표본조사를 통해 인터넷 이용률을 산출하고, 전체 인구 중 인터넷 이용자 수를 추정하는 방식을 사용하였으며, 여기에 사용된 만 7세 이상 인구 수(43.517.613)는 통계청의 「2001년 12월 31일 주민등록인구」수를 기준으로 하였다.{계산 방법만 7세 이상 인구 수 인터넷 이용률(43,517,613 56.6%)이용률의 표본 오차0.988% (95% 신뢰수준)인터넷 이용률추정결과56.6% 0.988%인터넷 이용자 수추정 결과24,630,970명 429,954명인터넷 이용자 수 추정 방법Ⅲ. 결론1.{{자료출처:한국인터넷정보센터발표 기관별 인터넷 이용자 수일반적으로 인터넷 사용자수를 조사하기 위해서는 Survey방법을 사용한다(Survey방법은 구체적인 수행방법에 따라 두 가지로 나뉘어지는데, 한가지 방법이 무작위 전화 조사[RDD:Random Didit Dialing]이고, 또 하나의 방법은 온라인 사용자[Web, PC통신등] 조사이다).즉, 일정 규모의 표본을 대상으로 하여 조사하고 조사결과를 이용하여 전체의 규모를 예측하는 것이다있다.
저의 소개를 시작하겠습니다~!학과 : 정보통계학과 이름 : 유지선 학번 : 9951058 E- mail : youjisunlove@hanmail.net우리 가족은..지선이의 프로필~♡이름 : 유지선 (♀) 에칭 : 엠보씽~! 혈액형 : O형 생년월일 : 80 ㆍ11ㆍ28 사는 곳 : 경기도 분당... 취미 : 음악듣기. 영화보기. 인터넷 사이트 돌아다니기 *^^* 좌우명 : 꿈을 잃지 말고 살자~!! My Dream : “LOVE” ^^;나의 만족도란 현재 느끼고 있는 생활에 대해 몇 가지를 그래프로 나타내어 본 것입니다. 여기서 숫자는 많을수록 '매우 만족'으로 볼 수 있습니다.“쫑알쫑알”*싫어하는 人은 잘난척하는 人. 허풍이 심한 人. 배려할 줄모르는 人. 바람기가 다분히 있는 人. 느끼한 人. 기억나는 시..세상에서 가장 슬픈 시 잊…..어…..버…..리…..자….. 좋아하는말.. 행복~!!지금 나오는 음악은 차이코프스키의 호두까기 인형 중 사탕 인형의 춤이란 곡인데 며칠전에 갔던 '분장실'이란 연극에서 나와서 알게됐어여.. 들으면 기분이 묘해져여~!! 소원이 있다면.. 2월 말에 군대에 들어간 남자친구..지금은 훈련소에 있을텐데... 훈련 열심히 받고 건강히 잘 있었으면..그리고 부모님도 항상 건강하셨으면..그리고.. 동생 더 이상 아프지말았으면 좋겠네여..저의 목소리를 들어보세요 ^^;{nameOfApplication=Show}