본문내용
1. 생물정보학 개요
1.1. 생물정보학의 정의
생물정보학은 생물체의 방대한 유전정보를 컴퓨터를 사용하여 정리하고, 분석하여, 해석하는 의미를 갖고 있으나 일반적으로는 정보기술(IT)과 생명공학기술(BT)의 융합으로 인식되고 있다"
1.2. 생물정보학의 발전 과정
생물정보학의 발전 과정은 다음과 같다.
생물정보학의 발달 과정을 살펴보면, 1970년대 중반부터 DNA와 단백질의 서열분석이 자동화되면서 뉴클레오타이드와 펩타이드에 관한 데이터를 축적하게 된다. 1980년대 중반부터 컴퓨터가 각종 데이터를 저장하면서 온라인을 통해 원격 접근이 가능하게 되었다. 1980년 후반에는 각 실험실이나 개인이 소장한 유전자와 단백질에 관한 정보를 공공의 데이터베이스로 만들어 수록하면서 생물정보학이 영향력을 발휘하게 된다. 생물정보의 가장 대표적인 기구로서 미국의 NCBI(National Center for Biotechnology Information)와 유럽을 중심으로 한 EBI(European Bioinformatics Institute), 일본의 CIB(Center for Information Biotechnology)등 국가가 지원하는 기관이 중심이 되어 수행하여 왔다. 이들 기관에서는 DNA의 염기서열 데이터베이스와 단백질 아미노산 서열, 단백질 3차 구조 데이터베이스, 데이터처리 소프트웨어, 생물학 관련 문헌정보, 인터넷을 통한 온라인 서비스 프로그램 등을 개발하고 활용케 하고 있다. 이렇게 생물정보학이 널리 인정을 받고 상업화로까지 진전하게 되는 데에는 인간 게놈 프로젝트를 통해 얻은 사람의 염기서열분석과 다른 미생물과 동식물의 게놈연구가 크게 기여했다. 이들 여러 종의 게놈연구가 많은 데이터를 만들어 내면서 생물정보학은 그 데이터의 처리 뿐 아니라 각종 데이터로부터 신약의 표적이 될 수 있는 새로운 물질 탐색과 검증을 위한 수단으로 이용되고 있다.
1.3. 생물정보학의 연구 분야
1.3.1. 유전자 프로젝트와 데이터베이스
유전자 프로젝트와 데이터베이스는 생물정보학의 주요 과제 중 하나이다. 유전자 프로젝트에 의해 실험실에서 얻어진 DNA 서열이나 단백질의 아미노산 서열은 이미 알려져 있는 4개의 염기와 20개의 아미노산으로 이루어져 있지만, 그 배열과 조합의 수는 사람의 손으로 직접 다룰 수 있는 한계를 넘어서기 때문에 컴퓨터를 이용하고 있다. 이들 서열을 효과적으로 다루기 위한 기본적인 단계로서 서열 정보 데이터베이스를 구축하는 것이 중요하다. 유전자, 단백질 그리고 생물 데이터베이스가 중요한 이유는 서열 자체만으로는 가치 있는 정보의 추출이 어렵기 때문에 이들이 가지고 있는 모든 연관된 데이터베이스를 구축하고 구조화함으로써, 데이터 클러스터링 및 마이닝을 통해 예측 가능한 정보를 얻기 위해서이다. 최근에 염기서열 해독과 데이터베이스에 등록은 급속도로 증가하고 있으며, 이들 데이터의 흐름은 다음과 같다.
<염기서열 데이터베이스 등록 추이 및 데이터 흐름>
국가별로 대표적인 유전자 데이터베이스로는 미국의 NCBI(National Center for Biotechnology Information), 유럽의 EBI(European Bioinformatics Institute), 일본의 CIB(Center for Information Biotechnology) 등이 있다. 이들 기관에서는 DNA의 염기서열 데이터베이스와 단백질 아미노산 서열, 단백질 3차 구조 데이터베이스, 데이터처리 소프트웨어, 생물학 관련 문헌정보, 인터넷을 통한 온라인 서비스 프로그램 등을 개발하고 활용케 하고 있다. 이렇게 생물정보학이 널리 인정을 받고 상업화로까지 진전되게 된 데에는 인간 게놈 프로젝트를 통해 얻은 사람의 염기서열분석과 다른 미생물과 동식물의 게놈연구가 크게 기여했다고 할 수 있다.
1.3.2. 서열 해석
서열 해석은 생물정보학의 주요 연구 분야 중 하나이다. 생물정보학에서는 DNA와 단백질의 서열 정보를 효과적으로 다루기 위한 다양한 기법을 활용하고 있다.
서열 정렬(Sequence Alignment)은 서열 해석의 대표적인 방법으로, 사용자의 서열과 데이터베이스 내의 서열을 비교하여 유사성을 찾아내는 것이다. 단백질 서열이나 핵산 서열 간의 관계를 파악하고 다른 개체나 생물과 비교하여 생명체의 구조와 기능을 이해하는 데 활용된다. 서열 정렬을 통해 기능적으로나 진화적으로 연관성이 있는 서열을 찾아내고, 그 서열들의 보존된 부위를 확인할 수 있다. 이는 질병의 원인 유전자 탐색, PCR 프라이머 제작, 유전자 조립 등에 활용된다.
서열 정렬은 복잡한 계산 과정을 거치므로 주로 컴퓨터 프로그램을 이용하여 수행한다. 대표적인 서열 정렬 프로그램으로는 Smith-Waterman, FASTA, BLAST 등이 있다. Smith-Waterman은 동적 프로그래밍 기법을 사용하며, FASTA와 BLAST는 유사 서열을 빠르게 찾아낼 수 있는 발전된 알고리즘을 구현하고 있다. 이러한 프로그램들은 유전자 및 단백질 기능 예측, 약물 타깃 발견 등 생물정보학의 다양한 분야에서 핵심적인 도구로 활용된다.
최근에는 차세대 염기서열 분석 기술(NGS)의 발전으로 대량의 서열 데이터가 생산되면서, 이를 효과적으로 분석하고 활용하기 위한 새로운 서열 해석 방법들이 개발되고 있다. 특히 메타유전체 분석, 단일 세포 유전체 분석 등 복잡한 생물 시료로부터 얻어지는 데이터를 해석하기 위한 알고리즘 및 소프트웨어가 주목받고 있다. 또한 기계 학습 및 딥러닝 기술을 활용하여 서열 정보로부터 구조, 기능 등을 보다 정확하게 예측하는 방법론도 개발되고 있다.
이처럼 서열 해석은 생물정보학의 핵심적인 연구 분야로, 생명 현상의 이해와 응용을 위한 필수적인 기술이라고 할 수 있다. 앞으로도 고성능 컴퓨팅 기술과 알고리즘의 발전에 힘입어 서열 분석의 정확성과 효율성이 지속적으로 향상될 것으로 기대된다.
1.3.3. 기능 예측
서열 정렬 등과 같은 방법을 통해 그 기능이 밝혀지지 않은 서열 부위의 기능을 유추해 낼 수 있으며, 이는 일종의 데이터마이닝(Data Mining)으로, 단지 서열 자체만을 알고 있을 때 등재된 데이터베이스 등을 이용해 서열 정렬한다. 이를 통해 비슷하거나 혹은 연관성 있는 특성을 찾아내어 클러스터링을 한 다음 네트워크 상호작용 분석을 통해 그 기능을 유추해 낼 수 있다. 인간 유전자의 경우 약3~4만개 정도의 유전자가 존재할 것으로 예상되고 있지만, 지금까지 밝혀진 것은 만개 이내이다. 나머지 유전자를 찾아내기 위해서는 위와 같은 과정을 반복적으로 수행해야 한다. 여기서 찾아낸 유전자는 그 기능을 정의하여 새로운 유전자로 등록할 수 있게 될 것이다. 그러나 단백질의 경우는 1차원적인 서열 분석만으로는 그 기능을 명확히 해석하는데 한계가 있기 때문에 2차 구조, 3차 구조의 분석을 통해야만 어느 정도 예측 할 수 있다. 단백질 아미노산 서열은 서열 유사성이 높더라도 구조적으로 충분히 차이가 날 수 있어서 전혀 다른 단백질로 분류되거나 그 반대로 서열 유사성이 낮더라도 구조적으로 비슷하여 유사한 기능성을 갖는 단백질로 분류되는 경우가 종종 있다.
1.3.4. 구조적 연구
단백질은 생명현상의 직접적으로 구성 요소이고 그것을 조절하는 물질이며, 단백질의 작용은 효소, 호르몬, 면역체계 등의 다양한 기능과 복잡한 구조를 가지고 있다. 단백질의 구조와 기능은 아미노산 서열과 특정 부위의 모양 등에 의해 결정되기 때문에 단백질연구(Proteomics)에 있어서 구조분석은 DNA와 RNA구조와 더불어 매우 중요한 분야이다. 실험실에서 단백질의 구조를 밝혀내는 가장 대표적인 방법은 X-ray Crystallography, NMR 등이 있으며 이들을 통해 단백질 분자의 3차원 구조를 알아내어 기능을...