[A+][95][한국외대-마케팅애널리틱스] 기말 대체 레포트

gptpem38

개인인증 판매자스토어

최초 등록일: 2021.01.15
최종 저작일: 2019.12; 33페이지/ 압축파일; 가격 4,000원

다운로드

장바구니

상세정보
자료후기 (0)
자료문의 (2)
판매자정보

소개글

한국외대 마케팅애널리틱스(ㅈㅅㅇ), 제 3 과제 머신러닝을 이용하여 원하는 데이터셋을 대상으로 분석을 진행하고, 이를 통해 얻어낸 마케팅 전략을 제안하는 마지막이자 기말 대체 과제입니다.

데이터는 캐글의 https://www.kaggle.com/datasnaek/league-of-legends 를 참고 바랍니다.

분석 코드 내부의 경로는 모두 삭제한 점 유의바랍니다. 10 페이지 내외가 권고사항이었는데, 교수님의 허락을 받아 약 30페이지 가량 작성하였습니다.
코드 실행 순서는 preprocessing - eda - analysis 입니다.

발표 ppt 는 디자인적인 요소를 전혀 고려하지 않았습니다.

1. 서론
가. 문제 정의
나. 데이터 선정 동기
다. 도메인 설명

2. 데이터 전처리
가. 결측치 및 이상치 처리
나. 변수 재정의

3. 데이터 분석
가. EDA
나. 단일모형단위 분석
다. 앙상블 분석

4. 결론
가. 결과 해석
나. 머신 러닝
다. 한계점

본문내용

가. 문제 정의(Problem Definition)
본 과제의 목적은 지난 한 학기동안 학습한 여러가지 머신 러닝 기법들을 활용하여, Outcome이 0 혹은 1로 이루어진 실제 데이터에 적용하고, 분석함으로써 가장 퍼포먼스가 좋은 모델을 수립하고, 이를 통해 통계적인 근거를 바탕으로 유의미한 답을 도출해내는 것이다.

나. 데이터 선정 동기(Motivation of Data Selection)
본 과제에서는 평소 즐겨하던 온라인 게임, ‘리그오브레전드(league of legends,이하 lol)’ 의 게임 정보를 데이터셋으로 결정하였다. lol은 각 5명으로 이루어진 두 팀이 각각 캐릭터(이하, 챔피언)를 선택하여 플레이하고, 최종적으로 ‘상대방 본진(이하, 넥서스)의 파괴’, 혹은 ‘항복’을 통해 승리 혹은 패배가 결정되는 게임이다. 해당 게임을 플레이함에 있어서 승패로 연결되는 여러가지 요인들이 존재하지만, 본 과제에서는 플레이어의 상세한 게임 이해도나 개인 실력을 배제하고, 양 팀에 동등하게 주어진 조건만을 따져, 승패를 예측하고, 이를 통해 ‘플레이어는 무엇을 우선순위로 선택해야 하는가?’에 대한 답변을 제시하고자 한다.

다. 도메인 설명(Domain Description)
lol은 각 5명으로 이루어진 양 팀(red, blue)이 symmetric한 맵의 각 코너(그림 1의 좌측하단과우측 상단)에서 시작하는 게임이다. 게임의 최종 목표는 각 팀의 출발지에 존재하는 상대방의 넥서스를 파괴하는 것이고, 이를 위해 각 팀의 멤버들은 본인이 배정받은 역할을 충실히 이행해야 한다. 플레이어의 역할은 일반적으로 총 5개로, top lane, mid lane, bottom lane, support, 그리고 jungle이 있다. 챔피언의 개수는 게임의 버전마다 다르지만, 본 과제에서 사용할 데이터셋의 챔피언은 총 138개로 구성되어 있다.
일반적으로, 대개 하나의 역할에 대해 주로 사용되는 챔피언이 존재하지만, 그렇다고 하여 특정 역할에 특정 챔피언들만 반드시 사용되어야 하는 것은 아니다. 다시 말해, 모든 역할에는 모든 챔피언이 참여할 수 있다.

참고 자료

앙상블모델 개념 https://www.slideshare.net/freepsw/boosting-bagging-vs-boosting
https://dambaekday.tistory.com/5
https://datascienceschool.net/view-notebook/766fe73c5c46424ca65329a9557d0918/
https://towardsdatascience.com/ensemble-learning-in-machine-learning-getting-started-4ed85eb38e00
https://hugrypiggykim.com/2019/04/07/bagging-boosting-and-stacking/
RandomForest https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
Estimating Bias & Variance https://www.researchgate.net/post/How_to_measure_bias_and_variance_of_a_machine_learning_algorithm
http://i.giwebb.com/wp-content/papercite-data/pdf/webbconilione04.pdf, page2
앙상블모델 코드 https://analysis-flood.tistory.com/103
https://excelsior-cjh.tistory.com/166
상관관계분석 https://blog.naver.com/PostView.nhn?blogId=parksehoon1971&logNo=221576394512
https://blog.naver.com/PostView.nhn?blogId=kiddwannabe&logNo=221205309816&parentCategoryNo=&categoryNo=&viewDate=&isShowPopularPosts=false&from=postView
다중공선성과 상관성의 차이 https://ai-times.tistory.com/268
로지스틱 회귀분석 https://kkokkilkon.tistory.com/19
https://rfriend.tistory.com/401
https://datascienceschool.net/view-notebook/d0df94cf8dd74e8daec7983531f68dfc/
로지스틱 회귀분석 기본가정 http://wolfpack.hnu.ac.kr/lecture/Regression/ch9_logistic.pdf
https://www.statisticssolutions.com/assumptions-of-logistic-regression/
http://www.sthda.com/english/articles/36-classification-methods-essentials/148-logistic-regression-assumptions-and-diagnostics-in-r/
DecisionTree https://gomguard.tistory.com/86
https://www.datacamp.com/community/tutorials/decision-tree-classification-python
https://scikit-learn.org/stable/modules/tree.html
Naïve Bayes https://gomguard.tistory.com/69
KNN https://gomguard.tistory.com/51?category=712467
https://towardsdatascience.com/a-simple-introduction-to-k-nearest-neighbors-algorithm-b3519ed98e
EDA – 시각화 https://databreak.netlify.com/2019-05-06-Best_Data_and_Big_Data_Visualization_Techniques/
Accuracy, Precision, Recall, F1-Score, ROC curve https://datascienceschool.net/view-notebook/731e0d2ef52c41c686ba53dcaf346f32/
Outlier https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba
https://soo-jjeong.tistory.com/121
https://www.researchgate.net/post/Which_is_the_best_method_for_removing_outliers_in_a_data_set
https://www.theanalysisfactor.com/outliers-to-drop-or-not-to-drop/
주성분분석(PCA) https://excelsior-cjh.tistory.com/167
https://bioinformaticsandme.tistory.com/42
https://www.youtube.com/watch?v=FgakZw6K1QQ&feature=emb_title
https://www.youtube.com/watch?v=DUJ2vwjRQag
https://ssungkang.tistory.com/entry/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5-PCA-2-python-%EC%9D%84-%EC%82%AC%EC%9A%A9%ED%95%9C-PCA-%EC%8B%A4%EC%8A%B5
https://towardsdatascience.com/an-approach-to-choosing-the-number-of-components-in-a-principal-component-analysis-pca-3b9f3d6e73fe
PCA, 스케일링 해야하는 이유 https://scikit-learn.org/stable/auto_examples/preprocessing/plot_scaling_importance.html#sphx-glr-auto-examples-preprocessing-plot-scaling-importance-py
Luckily, decision trees and boosted trees algorithms are immune to multicollinearity by nature. https://towardsdatascience.com/why-feature-correlation-matters-a-lot-847e8ba439c4
Effects of Multi-collinearity in Logistic Regression, SVM, RF https://medium.com/@raj5287/effects-of-multi-collinearity-in-logistic-regression-svm-rf-af6766d91f1b
precision and recall https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.htmls
https://datascienceschool.net/view-notebook/731e0d2ef52c41c686ba53dcaf346f32/
https://frhyme.github.io/machine-learning/clf_%ED%8F%89%EA%B0%80%ED%95%98%EA%B8%B0/
https://nittaku.tistory.com/295
handling multicollinearity
https://statisticsbyjim.com/regression/multicollinearity-in-regression-analysis/
ROC curve https://www.scikit-yb.org/en/latest/api/classifier/rocauc.html
https://tariat.tistory.com/754
https://datascienceschool.net/view-notebook/731e0d2ef52c41c686ba53dcaf346f32/
RandomForest & logistic Regression https://towardsdatascience.com/is-random-forest-better-than-logistic-regression-a-comparison-7a0f068963e4
does RandomForest variables needs to be scaled? https://stats.stackexchange.com/questions/255765/does-random-forest-need-input-variables-to-be-scaled-or-centered
RandomForest Parameter tuning https://medium.com/@mohtedibf/indepth-parameter-tuning-for-decision-tree-6753118a03c3
https://m.blog.naver.com/PostView.nhn?blogId=genesis717&logNo=220657709230&proxyReferer=https%3A%2F%2Fwww.google.com%2F
https://towardsdatascience.com/hyperparameter-tuning-the-random-forest-in-python-using-scikit-learn-28d2aa77dd74
min_samples_leaf와 min_samples_split의 차이 https://codeday.me/ko/qa/20190404/233848.html

압축파일 내 파일목록

code/
code/.ipynb_checkpoints/
code/.ipynb_checkpoints/final_analysis-checkpoint.ipynb
code/.ipynb_checkpoints/final_EDA-checkpoint.ipynb
code/.ipynb_checkpoints/final_preprocessing-checkpoint.ipynb
code/.ipynb_checkpoints/wc_preprocessing-checkpoint.ipynb
code/final_analysis.ipynb
code/final_EDA.ipynb
code/final_preprocessing.ipynb
code/wc_preprocessing.ipynb
data/
data/champion_info.json
data/champion_info_2.json
data/games.csv
data/games_WC.csv
data/games_wc_final.csv
data/readme.txt
data/summoner_spell_info.json
pics/
pics/corr_matrix.png
pics/feature_importance.png
한국외대 마케팅애널리틱스 기말대체 발표자료.pptx
한국외대 마케팅애널리틱스 기말대체 보고서.docx
한국외대 마케팅애널리틱스 기말대체 보고서.pdf

전체 목록 보기