1. Gene(유전자)의 정의
: gene 이라는 것은 transciption의 시작점과 끝점을 포함하는 부분임. 즉, ORF(Open reading Frame, 열린 해독틀)을 포함하는 유전정보를 가지는 염기서열 부위임. 따라서 DNA에서 mRNA를 만드는 부분이라고 할 수 있음.
2. Bioinformatics(생명정보 처리학)의 정의 및 기능
1) DNA 서열만을 가지고 단백질 서열을 예측하고 그의 기능을 추론하는 학문이 생명정보학임.
2) 그러나 단백질의 예상된 기능이 진짜 맞는지에 대해서는 실험적으로 증명과정을 거쳐야 함. 따라서, 생명정보학과 실험 생물학은 서로 연관되어 있다고 볼 수 있음.
* 염기서열이 비슷할수록 생물체 사이에서는 관련성이나 생물학적 연관성(homology)이 높음. 한편 종(species)이 다른 여러 생물체에서 머리털 같은 즉, 비슷한 기능을 하는 기관 및 생물체의 구성체는 유전자(염기서열)가 거의 비슷함. 따라서 단백질의 아미노산 서열도 비슷함.
3. 유전자 은행(NCBI GenBank)에 대한 설명 1) NCBI?
: NCBI(National Center for Biotechnoloy Information)은 미국의 NIH(National Institutes of Health)에 운영하는 생명정보 database web search engine임.
2) GenBank?
: GenBank는 NCBI에 있는 유전정보 중에서 DNA base sequence 또는 protein amino acid sequence를 검색 또는 등록할 수 있는 카테고리다.
4. GenBank에서 DNA base sequence 검색 1) search option
- Nucleotide : DNA, RNA sequence - Protein : protein information
- PubMed(Public Medline) : DNA, protein의 sequence를 신규 발견할 경우 등록하는 장소이며, 그에 대한 관련 논문이 link되어 있음.
2) nucleotide option으로 검색해 보기 ① 검색조건 : KIM leustek
② CoreNucleotide 클릭
* A : Arabidopsis thaliana(애기장대 속명)을 검색한 sequence라는 말
B : Methionine 효소에 관한 것임(CGS는 줄임말이며, 숫자는 numbering 임) C : intron이 없는 mRNA 상태로 발견되었다는 것임
D : complete coding sequence의 약자로 완전히 암호화되어 있는 서열이라는 뜻임.
(만약, incomplete라면 시작점이나 끝점이 없는 불완전한 서열임)
③ U43709 클릭
- LOCUS : NCBI에 등록된 유전자 고유번호
- PLN : 발견된 유전자가 논문으로 발행된 날짜
- DEFINITION : 유전자에 대한 정보 및 정의
- AUTHORS : 유전자를 찾은 사람
- gene : 유전자의 염기서열 부위
(이번의 경우 ORIGIN의 1~1943까지가 유전자 염기서열임)
- CDS : ORF(Open Reading Frame)의 염기서열 부위
(이번의 경우 ORIGIN의 63~1754까지가 유전자 염기서열임)
- note : 등록자의 첨삭부분으로, 보통 염기서열 검색결과 상동성(homology)가 높은 순서의 생물종에 대한 정보를 표시함
- translation : ORF 부위를 아미노산 서열로 translation 한 것임
- ORIGIN : 유전자의 염기서열
<알아야 할 부분>
1. LOCUS
2. PLN
3. DEFINITION
4. AUTHORS
5. gene
6. CDS
7. note
8. translation
9. ORIGIN
④ 검색조건 : AF039206 ⑤ AF039206 클릭
→ NCBI 에 등록된 U43709 유전자의 원래 intron이 있는 DNA 부분을 찾아서 염기서열을 분석한 것.
→ 왜 intron을 찾았을까?
∵ intron이 중요한 것이 아니라 promoter 부위를 보기 위해서 intron이 있는 것을 찾음.
→ intron만 추가된 것이기 때문에, 단백질 서열은 intron의 없는 것과 같음.
∵ intron은 spliing 과정에서 제거되기 때문에 intron으로 인해서 단백질 서열이 영향을 받지는 않는다.
<참고자료>
* 바이오 인포 매틱스(김병우 외6명 공저, 세종출판사, 2005.3.15) 주제 : 서열검색사이트(NCBI-BLAST)
http://www.nlm.hih.gov/blast
키워드 : 유사서열 검색, 염기서열 해석, 아미노산서열 해석 1. 서비스의 내용
: NCBI의 BLAST 서비스는 상당히 빠르고, 선택할 수 있는 옵션이나 결과의 표시방법이 다양하다. 데이터 베이스 중에서 이미 알려진 서열과 유사한 영역이 있는지를 검색하는 경우 제일 처음 거쳐야 하는 사이트이다.
한마디로 BLAST라고 해도 top page에 보이는 것과 같이 여러 가지 검색 목적에 따라 특성화된 파생형이 존재한다. 현재 메뉴의 개요를 정리하면 다음의 표와 같다.
BLAST 사용방법 특 징
Nucleotide 염기서열 대 염기서열
ㅇ 통상의 BLAST
ㅇ Mega BLAST : 거대한 서열상의 거의 동일한 서열을 고속으로 검색
ㅇ 대부분 일치하는 짧은 서열 검색
Protein 아미노산서열 대 아미노산서열
ㅇ 통상의 BLAST
ㅇ PSI-BLAST/PHI-BLAST
: 낮은 유사서열을 가진 아미노산서열의 고감도 검색
ㅇ 대부분 일치하는 짧은 서열 검색
Translated 조회, 데이터베이스의 어느 쪽을 선택
ㅇ BLASTX*1 ㅇ TBLASTN*2 ㅇ TBLASTX*3 Search for
conserved domains
보존되어 있는 도메인의 검색
Pairwise 입력한 2종류의 조회서열 간의 유사검색 Genomic 게놈프로젝트가 진행되고 있는 생물종 검색
Specialized
VecScreen 염기서열 결정시 혼입된 vector서열의 검출 IgBLAST Immunoglobulin 서열의 검색
TraceBLAST 매우 길고 유사성이 낮은 서열간의 비교가 가능한 MegaBLAST
*1 : 염기서열을 모든 reading frame에 대하여 번역한 후, 아미노산서열 데이터베이스를 대상으로 검색
*2 : 입력서열이 아미노산이고, 모든 reading frame으로 전사되는 염기 데이터베이스 서열 중 기능이 없는 코딩 부위를 찾는데 유용
*3 : 모든 6 frame을 대상으로 입력 query인 염기서열의 모든 전사된 6 frame을 비교함.
2. 서비스의 장점
: BLAST의 특징은 다른 방법과 비교하여 빠르다는 점이다. BLAST 버전 1에서는 서열의 gap을 도입 할 수 없었기 떄문에 gap을 고려하는 FASTA(검색서비스)가 보다 유리한 점이 있었으나 1997년부터 gap을 도입한 BLAST 버전 2가 제공되어 기능상 차이거 없어지게 되었다.
서열 데이터베이스와의 유사검색은 BLAST 이외에 FASTA 법이나 Smith-Waterman 법에 의한 검색을 제공하는 웹 사이트도 존재한다. 이와 같은 BLAST 이외의 방법은 처리시간이 길지만 BLAST에서는 발견할 수 없는 낮은 유사영역을 발견할 가능성이 높기 때문에 아미노산서열의 유사검색에서 즐겨 쓰는 경향이 있다. 그러나 현재에는 PSI-BLAST에 의해 유사성이 낮은 서열도 검출할 수 있으며 gap도 도입할 수 있는 방법으로 개선되었기 때문에 BLAST가 가장 많이 이용되고 있다.
NCBI의 서비스의 또 다른 장점은 다기능이라는 것이다. 또한 해석결과도 통상의 BLAST output이나 mutiple alignment, 단순한 표현식 등 다양한 형식으로 결과를 얻을 수 있다.
3. 서비스의 사용단계
: 기능을 알 수 없는 서열(유전자나 유전자 산물의 전체 길이나 단편)을 새롭게 얻은 경우 데이터베이스 내의 서열과 유사한 영역이 있는지의 검색에 이용된다. 유사 영역이 검출되어 그 영역의 기능이 이미 알려진 경우에는 조회한 서열의 기능도 추측할 수 있다. 또한 게놈 염기서열 상의 EST나 cDNA 서열의 mapping 또는 유전자 코드 영역의 발견에도 사용되나, 이 경우에는 데이터베이스 내의 서열 기능을 알지 못해도 상관없다. 알고 있는 서열과 alignment가 일치된 영역이 전사 또는 번역 되는 영역으로 동정되면 유전자 발견의 목적을 달성하게 된다. 또한 유사성을 토대로 기능을 추측할 수 있다.