BRONZE
BRONZE 등급의 판매자 자료

데이터 마이닝을 이용한 프로야구 투수 연봉 예측모델 구현

의사결정나무, 인공신경망, SVM, 베이지안 네트워크 등 다양한 데이터 마이닝 기법을 이용하여 프로야구 투수들의 연봉예측 모형을 구현하는 내용의 리포트입니다. 2012년부터 2017년 투수 성적을 토대로 다음해 연봉 수준(LV1~LV4)을 예측하는 것입니다. 데이터 마이닝 툴인 웨카(WEKA)를 사용하였으며, 각 마이닝 기법별 성능도 비교하였습니다. 가장 잘 나온 것이 85% 정도 성능을 보였습니다. 웨카에 대해 잘 모르시는 분들을 위해 전 과정을 자세히 캡쳐하여 <참고>에 추가하였습니다. 따라가면서 문제 없이 하실 수 있습니다. 참고로 전 데이터베이스 과목에서 A+를 받았습니다. 이 프로젝트를 통해 데이터마이닝에 대해 기본내용을 확실히 이해할 수 있었습니다. 많은 도움 되었으면 좋겠습니다.
21 페이지
워드
최초등록일 2020.11.26 최종저작일 2020.11
21P 미리보기
데이터 마이닝을 이용한 프로야구 투수 연봉 예측모델 구현
  • 미리보기

    소개

    의사결정나무, 인공신경망, SVM, 베이지안 네트워크 등 다양한 데이터 마이닝 기법을 이용하여

    프로야구 투수들의 연봉예측 모형을 구현하는 내용의 리포트입니다.

    2012년부터 2017년 투수 성적을 토대로 다음해 연봉 수준(LV1~LV4)을 예측하는 것입니다.

    데이터 마이닝 툴인 웨카(WEKA)를 사용하였으며, 각 마이닝 기법별 성능도 비교하였습니다.

    가장 잘 나온 것이 85% 정도 성능을 보였습니다.

    웨카에 대해 잘 모르시는 분들을 위해 전 과정을 자세히 캡쳐하여 <참고>에 추가하였습니다.

    따라가면서 문제 없이 하실 수 있습니다.

    참고로 전 데이터베이스 과목에서 A+를 받았습니다.

    이 프로젝트를 통해 데이터마이닝에 대해 기본내용을 확실히 이해할 수 있었습니다.

    많은 도움 되었으면 좋겠습니다.

    목차

    1. 연구배경
    2. 데이터 전처리
    3. 최종 데이터 셋
    4. 분석내용
    5. 결과의 활용
    6.<참고1> 데이터 마이닝 주요과정(웨카)
    7.<참고2> 웨카 팁

    본문내용

    1.연구배경

    구단 과 선수 간 끊임없는 연봉협상 문제 발생
    경기 성적을 토대로 합리적 연봉 산정 기준 마련 필요
    다양한 데이터 마이닝 기법을 적용, 다음 해 연봉수준(LV1~LV4) 예측
    - 의사결정나무(CART, C4.5, Random Forest)

    2.데이터 전처리

     KBO 홈페이지에서 투수 경기기록 수집
    ㅇ (년도) 2012~2017
    ㅇ (팀) 넥센, 두산, 롯데, 삼성, 한화, KIA, KT, LG, NC, SK
    ㅇ (기록) ERA(방어율), G(게임), W(승), L(패), SV(세이브), HLD(홀드),
    IP(이닝수), H(피안타), HR(홈런), BB(볼넷), HBP(사구), SO(삼진), R(실점), ER(자책점), WHIP(이닝당 출루허용률)

    STATIZ 홈페이지에서 투수 WAR(대체선수 대비 기여도) 및 연봉정보 수집
    ㅇ (년도) 2012~2018
    ㅇ (팀) 넥센, 두산, 롯데, 삼성, 한화, KIA, KT, LG, NC, SK
    ㅇ (수집정보) WAR 및 연봉

    투수 경기기록 및 연봉 정보 결합(엑셀)
    ㅇ 년도+선수명+팀명을 키 값으로 VLOOKUP 함수를 사용
    예시) 연봉: VLOOKUP(Z2, SALARY, 2, FALSE),
    WAR: VLOOKUP(Z2, SALARY, 3, FALSE)

    ㅇ 팀 이동, 은퇴, 신규 선수 등 데이터가 NULL인 경우 제외

    다음 해 연봉을 기준으로 연봉수준(LV1~LV4) 분류(Classification)
    ㅇ 각 Level의 기준값은 전체 연봉의 25%(4000만), 50%(7500만),
    75%(16000만) 수준 예시) IF(U2>=16000, 4, IF(U2>=7500, 3, IF(U2>=4000, 2, 1)))
    구분LV1LV2LV3LV4
    연봉~4000만4000만~7500만7500만~16000만16000만~
    인원195명226명220명220명

    3.최종 데이터 셋

    ㅇ (독립변수) ERA, G, W, L, SV, HLD, IP, H, HR, BB, HBP, SO, R, ER, WHIP, WAR, SALARY(17개)

    참고자료

    · KBO 홈페이지: https://www.koreabaseball.com/
    · STATIZ 홈페이지: http://www.statiz.co.kr/main.php
    · 이것이 데이터 분석이다 | 윤기태 지음 | 한빛미디어
  • 자료후기

      Ai 리뷰
      지식판매자의 콘텐츠는 다양한 주제를 깊이 있게 다루고 있어 지루할 틈이 없습니다. 매번 새로운 인사이트를 제공해 주어 학습이 즐거워지고 있습니다. 학습 후 실제로 과제나 레포트에 활용할 수 있어 매우 만족스럽습니다. 앞으로도 계속해서 이용할 예정입니다!
    • 자주묻는질문의 답변을 확인해 주세요

      해피캠퍼스 FAQ 더보기

      꼭 알아주세요

      • 자료의 정보 및 내용의 진실성에 대하여 해피캠퍼스는 보증하지 않으며, 해당 정보 및 게시물 저작권과 기타 법적 책임은 자료 등록자에게 있습니다.
        자료 및 게시물 내용의 불법적 이용, 무단 전재∙배포는 금지되어 있습니다.
        저작권침해, 명예훼손 등 분쟁 요소 발견 시 고객센터의 저작권침해 신고센터를 이용해 주시기 바랍니다.
      • 해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.
        파일오류 중복자료 저작권 없음 설명과 실제 내용 불일치
        파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우 다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함) 인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우 자료의 설명과 실제 자료의 내용이 일치하지 않는 경우
    문서 초안을 생성해주는 EasyAI
    안녕하세요. 해피캠퍼스의 방대한 자료 중에서 선별하여 당신만의 초안을 만들어주는 EasyAI 입니다.
    저는 아래와 같이 작업을 도와드립니다.
    - 주제만 입력하면 목차부터 본문내용까지 자동 생성해 드립니다.
    - 장문의 콘텐츠를 쉽고 빠르게 작성해 드립니다.
    - 스토어에서 무료 캐시를 계정별로 1회 발급 받을 수 있습니다. 지금 바로 체험해 보세요!
    이런 주제들을 입력해 보세요.
    - 유아에게 적합한 문학작품의 기준과 특성
    - 한국인의 가치관 중에서 정신적 가치관을 이루는 것들을 문화적 문법으로 정리하고, 현대한국사회에서 일어나는 사건과 사고를 비교하여 자신의 의견으로 기술하세요
    - 작별인사 독후감
    해캠 AI 챗봇과 대화하기
    챗봇으로 간편하게 상담해보세요.
    2025년 07월 15일 화요일
    AI 챗봇
    안녕하세요. 해피캠퍼스 AI 챗봇입니다. 무엇이 궁금하신가요?
    6:47 오전