카이스트 Bioengineering Laboratory 1 lab6_final [Microarray data analysis]
- 최초 등록일
- 2015.01.04
- 최종 저작일
- 2014.04
- 18페이지/ MS 워드
- 가격 3,000원
소개글
카이스트 바이오및뇌공학과 계측 1 실험 6: Microarray data analysis final 보고서 입니다.
실험 5에 이은 후속실험입니다.
한글자료입니다.
14년도 1학기 전체 1등으로 A+ 받았습니다.
목차
1. Introduction
2. Theoretical Background
1) DEG(Differentially Expressed Gene)
2) Cut off value
3) Entropy
4) Intormation gain
5) decision tree
6) N-fold cross validation method
3. Method
4. Result & Discussion
5. Reference
본문내용
1. Introduction
우리는 앞선 lab 5에서 GSE4290의 microarray data를 다운 받아 MATLAB을 이용해 정리하고, patient와 normal에서의 다양한 단백질 발현 정도를 분석하여 단백질들 가운데 다르게 발현되는 단백질 (Differentially Expressed Genes, DEGs)들을 찾아내 질병에 영향을 미치는 단백질들을 찾았다.
이번 lab 6에서 우리는 lab 5로 부터 얻은 DEGs, 그리고 sample들의 gene에 따른 발현 정도를 기록한 dataset을 기반으로 하여 각 DEG들의 cut off value를 설정하고, decision tree를 만들어 어떤 sample의 gene 발현 정도의 정보 만으로 normal인지 disease인지 판별하는 프로그램을 작성하였다.
2. Theorical Background
A. DEG(Differentially Expressed Gene)
Micro array에는 몇몇 sample(normal, disease)들에서의 다양한 gene의 발현 정도가 기록 되어있다. gene들 가운데 normal과 disease sample에서 발현 정도가 유의하게 차이 나는 gene들을 DEG라 한다. 우리는 앞선 lab5에서 dataset을 통계적으로 분석하여 각 gene들의 p-value를 찾아냈고, 이들 가운데 p-value가 낮은 30개의 gene을 골라서 Decision Tree를 위한 DEG로 사용했다.
B. Cut Off Value
Cut Off Value란 sample들을 발현 정도에 따라 두 group으로 나누기 위한 기준이 되는 value이다. Cut Off Value는 다양한 방법을 통해 설정할 수 있는데, 본 실험에서 우리는 normal sample들의 발현 정도의 평균과, disease sample들의 발현 정도의 평균 값의 중간 값을 cut off value로 사용했다.
참고 자료
Tom Mitchell - Machine Learning : Chapter 3. Decision Tree Learning
Lab 5 MainLab-Hyunseo Ahn
Lab 6 PreLab-Dongsuk Oh, Hyunseo Ahn
2014 Bioengineering Laboratory 1 : Chapter 6. Micro array Data analysis
http://winplz.tistory.com/134