• 파일시티 이벤트
  • LF몰 이벤트
  • 서울좀비 이벤트
  • 탑툰 이벤트
  • 닥터피엘 이벤트
  • 아이템베이 이벤트
  • 아이템매니아 이벤트

텍스트 마이닝을 이용한 온라인 긴급 게시물 실시간 탐지 기법

*형*
최초 등록일
2013.10.10
최종 저작일
2013.08
62페이지/파일확장자 어도비 PDF
가격 무료 할인쿠폰받기
다운로드

소개글

The production of digital data has doubled over 2years and it is expected to increase over 40 zetabytes by 2020. It is known as bigdata. Although the variety and value of the digital data were increased, analysis
technique and application technique of the digital data were not advanced enough. Nowadays opinion mining, which is an existing common typical analysis technique for online post, has been widely researched. It focuses on analyzing of user sentiment which consists of negative keyword and positive keyword in connection with attributes of products. In this paper, a research study about the fact analysis technique and the predicate analysis technique, which predicates the keyword, has been researched. This technique is one of the unstructured data, which is explosively being grown, analysis technique.

목차

제 1장 서론
1.1 연구배경 1
1.2 연구목적 6

제 2장 관련 연구
2.1 VOC의 정의 및 중요성 9
2.2 관련 연구 및 차별성 11

제 3장 긴급 게시물 실시간 탐지 기법의 모델 제안
3.1 과거 게시물 데이터의 수집과 분류 18
3.2 긴급 게시물의 주제어 선정 20
3.3 긴급 게시물 주제어의 모든 서술어 수집 22
3.4 긴급 게시물 주제어의 그룹화 24
3.5 긴급 게시물의 후보선정 26
3.6 긴급 게시물의 판단 28
3.7 가중치의 설정 33
3.8 온라인 긴급 게시물 실시간 탐지 기법의 알고리즘 33

제 4장 실험 및 결과 분석
4.1 실험에 사용된 데이터 38
4.2 실험을 위한 전처리 작업 38
4.3 실험 대상 및 결과 41

제 5장 결론 및 향후 연구 47
참고문헌 49

본문내용

1.1 연구배경

전 세계에서 1년간 생성된 디지털 정보의 양은 2011년에는 1.8제타 바이트(ZB)였으며, 2012년에는 2.8제타바이트였다. 2012년에 생성된 데 이터 2.8제타바이트는 전 세계 해변에 있는 모래알의 수인 7억 50만조 의 약 4배 해당하는 숫자이며, 이 데이터를 모두 저장한 4.7GB DVD 디 스크는 약 595,744,680,000개이고, 이 디스크를 한 줄로 쌓아올린 높이 는 세계에서 가장 높은 빌딩인 두바이의 부르즈 할리파(Burj Khalifa) 빌딩(828m) 863,398개를 쌓아올린 높이와 같다. 이 2.8제타바이트의 디지털 데이터 중 유용한 가치를 창출할 것으로 판단된 데이터의 양은 23%(0.64ZB)로, 그 중 3%가 분류되었고, 0.5% 만이 분석되었으며, 95% 이상의 데이터는 이용되지 못하고 방치되었다[1]. 이런 흐름 속에서 데이터를 얻는 능력 - 즉 데이터를 이해하는 능 력, 데이터를 처리하는 능력, 데이터에서 가치를 뽑아내는 능력, 데이터 를 시각화하는 능력, 데이터를 전달하는 능력 - 이 앞으로의 디지털 시 대에 매우 중요한 기술이 될 것이라는 예측이 나오고 있다

<중 략>

서술어 중 반복해서 출연한 Gram에 더 높은 가중치를 주어 가중치를 통 해 핵심 Gram에 더 점수를 부여하여 계산하는 방법이다.

Weight N-Gram

Weight N-Gram은 단어와 단어 사이의 유사도를 비교하던 기존 N-Gram과 달리 서술어와 서술어 집합을 비교하는 알고리즘으로 서술 어와 서술어 집합을 각각 N-Gram으로 분할한 후 서술어의 Gram과 서 술어 집합의 Gram을 비교하는 것으로, 서술어 Gram과 동일한 Gram이 서술어 집합에서 다회 등장한 경우, 해당 Gram은 등장한 횟수만큼의 가 중치를 부과하여, 다회 등장한 핵심 Gram에 상대적으로 많은 가중치를 부여하여 계산하는 방식이다. 기존의 N-Gram은 분할되어진 각 Gram을 원소로 하여, 중복하여 발생된 Gram을 하나의 원소로 취급하였으나, Weight N-Gram은 서술어 집합에서 중복하여 존재하는 Gram은 중복하 여 발생한 만큼의 가중치를 부여한다.

참고 자료

John Gantz and David Reinsel, "Big data, bigger digital shadows, and biggest growth in the far east", The digital universe in 2020, 2012
Hal Ronald Varian, "Hal varian on how the web challenges managers", Mckinsey quarterly january, 2009
Christy Pettey and Laurence Goasduff, "Gartner says solving 'big data' challenge involves more than just managing volumes of data", Gartner, 2011
James Manyika and Michael Chui and Brad Brown and Jacques Bughin and Richard Dobbs and Charles Roxburgh and Angela Hung Byers, "Big data the next frontier for innovation, competition, and productivity", Mckinsey global institute, 2011
Namrata Godbole and Manjunath Srinivasaiah and Steven Skiena, "Large-scale sentiment analysis for news and blogs", In proceedings of the international conference on weblogs and social media, 2007
SooMin Kim and Eduard Hovym "Determining the sentiment of opinions", In proceedings of the international conference on computational linguistics, 2004
Minqing Hu and Bing Liu, "Mining opinion features in customer reviews", In proceedings of aaai, 2004
Rayid Ghani and Katharina Probst and Yan Liu and Marko Krema and Andrew Fano "Text mining for product attribute extraction", Sigkdd explorations newsletter, 2006
Ana-Maria Popescu and Oren Etzioni, "Extracting product features and opinions from reviews", In proceedings of the human language technology conference and the conference on empirical methods in natural language processing, 2005
Turney and Littman, "Unsupervised learning of semantic orientation from a hundred-billion-word corpus", Technical report, national research council, institute for information technology, 2002
TARP "Consumer complaint handling in America : Final report", White house office of consumer affairs, 1979
Jeremy Ginsberg, "Detecting influenza dpidemics using search engine query data", Nature 457, pp.1012~1014, 2009
Miguel Helft, "Google uses searches to track flu’s spread", The new york times, page a1, 2008/11/12
Justin Zobel and Philip Dart and "Phonetic string matching : lessons from information retrieval", In proceedings of the 19th annual international acm sigir conference on research and development in information retrieval, pp. 166-172, 1996
장길상, "대규모 제조업에서의 통합 VOC 관리 방안 및 시스템 구축 'H'중공업 건설장비 부문 적용 사례", 한국컴퓨터정보학회지 제14권 제8호 통권 제65호 pp.127-136, 2009
스즈키 료스케, "빅데이터 비즈니스", 서울 : 더숲, 2013
송민정, "빅데이터가 만드는 비즈니스 미래지도", 서울 : 한스미디어, 2012
황혜정, "쏟아지는 소셜 데이터에 대한 기대 지나치게 부풀려진 상태일 수도", 엘지 비즈니스 인사이트, 2012
주종문과 황승국 "고객관계관리(CRM)을 위한 VOC 분석 시스템 구축", 한국품질경영학회보 제32권 제1호 pp.75-91, 2004
박경규, "고객만족 경영을 위한 VOC 구축방안", 기업소비자정보 pp.114-115, 2008
송종석, "상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 구축", 정보과학회논문지 제38권 제3호 pp.157-168, 2011
명재석과 이동주와 이상구 "반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템", 정보과학회논문지 제35권 제6호 pp.392-403, 2008
권이은, "사실 문장 요소의 체계화 및 지도 방안 연구 : 사실과 의견 구별하기를 중심으로", 경인교육대학교 석사 졸업논문, 2010
김지승, "확률 모델에 근거한 검색 질의의 문자열 유사도 계산", 숭실대학교 박사 졸업논문, 2006
우지영과 최민석과 박상찬 "고객의 소리 발생 변화 원인의 체계화에 대한 연구-보험업을 중심으로", 대한산업공학회 추계학술대회논문집 No.11 pp.33-37, 2004
장문수, "구어에 대한 자연어 처리의 문제점과 그 해결을 위한 시스테믹 기능문법적 접근", 한국어학 통권 제46호 pp.123-143, 2010
이동주와 연종흠과 황인범과 이상구, "http://kkma.snu.ac.kr/" 서울대학교 IDS 연구실, 2013/4/3
*형*
판매자 유형Bronze개인

주의사항

저작권 자료의 정보 및 내용의 진실성에 대하여 해피캠퍼스는 보증하지 않으며, 해당 정보 및 게시물 저작권과 기타 법적 책임은 자료 등록자에게 있습니다.
자료 및 게시물 내용의 불법적 이용, 무단 전재∙배포는 금지되어 있습니다.
저작권침해, 명예훼손 등 분쟁 요소 발견 시 고객센터의 저작권침해 신고센터를 이용해 주시기 바랍니다.
환불정책

해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.

파일오류 중복자료 저작권 없음 설명과 실제 내용 불일치
파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우 다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함) 인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우 자료의 설명과 실제 자료의 내용이 일치하지 않는 경우

이런 노하우도 있어요!더보기

최근 본 자료더보기
탑툰 이벤트
텍스트 마이닝을 이용한 온라인 긴급 게시물 실시간 탐지 기법
  • 레이어 팝업
  • 레이어 팝업
  • 레이어 팝업
  • 레이어 팝업
  • 레이어 팝업