본문 바로가기
생물정보학/Tools

VCF GT, DP, AD와 genotype 0/0 , 0/1 , 1/1의 의미

by HanJoohyun 2019. 7. 15.
반응형

 

 

 

 

 


 

안녕하세요 한주현입니다.

 

오늘은 VCF 파일의 GT, DP, AD와 Genotype에서 0/0, 0/1, 1/1 의 의미에 대해 알아보겠습니다.

 


목차

VCF 파일의 관찰

GT, AD, DP의 의미

Genotype 에서의 0/0, 0/1, 1/1 의 의미

그럼 genotype 언제 쓰나요?



VCF 파일의 관찰과 GT, AD, DP의 의미


VCF 파일을 보시면

1
2
3
4
#CHROM  POS         ID       REF     ALT    [중간 삭제]  FORMAT      Sample1               Sample2
chr21   18269600    rs12345  T       TGCG   [중간 삭제]  GT:AD:DP    0/1:44,37:81          0/0:0,90:90
chr21   18269704    .        A       C      [중간 삭제]  GT:AD:DP    0/1:720,910:1630      1/1:2,401:403
chr21   25887701    .        T       C      [중간 삭제]  GT:AD:DP    1/1:36,3030:3066      0/1:80,40:120

대략 요렇게 생겼습니다.

VCF 파일에 관해서는 몇 번 포스팅 한 적이 있어서 VCF 파일에 관해서는 다음 포스팅을 참고해 주세요

https://korbillgates.tistory.com/136

 

FORMAT 컬럼을 보았을 때,

GT:AD:DP라고 쓰여있는데요..

 

GT: Genotype (유전형)

AD: Allelic depth

DP: Read depth

 

입니다.

사실 VCF 파일 내부 #으로 시작하는 부분을 보시면 다음과 같이 설명이 있습니다..ㅋㅋ

1
2
3
4
##fileformat=VCFv4.1
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">

Genotype의 경우 해당 position의 variant에 맞춰서 Ref(기준), Alt(변이)가 0/0, 0/1, 1/1 과 같이 표시 됩니다. 자세한 내용은 조금 뒤 살펴보겠습니다.

Allelic depth의 경우는 각 allele의 depth를 나타냅니다. 위의 vcf 예제의 chr21 18269600 position을 보면 AD가 44,37로 되어있습니다. 이 말은 Ref인 T가 44 depth 만큼, Alt인 TGCG가 37 depth 만큼 쌓여있다는 의미입니다.

마지막으로 DP, Read depth는 해당 position의 전체 depth를 나타냅니다. 다시 말해 포지션에 쌓여있는 전체 depth가 몇인지를 알려주는 것이지요.

 


Genotype 에서의 0/0, 0/1, 1/1 의 의미


0은 REF를 의미합니다

1은 첫 번째 ALT를 의미합니다. 첫 번째가 있다는 얘기는 두 번째도 있다는 얘기처럼 들리는데, 맞습니다 두 번째 ALT는 2로 세 번째 ALT는 3으로 씁니다. 그래서 0/2, 1/2 같은 Genotype 도 있습니다.

 

여하튼..

0/0은 REF/REF로 해당 position이 쌓여 있다는 얘기입니다.

0/1은 REF/ALT로

1/1은 ALT/ALT로 쌓여 있다는 얘기죠.

 

그래서..

다시 위의 VCF 예시파일을 보면

chr21  18269704  A  C 로 되어있고 0/1 로 되어있는데, 그 말은 REF: A 와 ALT: C 로 쌓여있다는 얘깁니다.. ㅋㅋ

실제로 AD 를 보시면 720,960 으로 약 반반 정도 쌓였네요.. 사실 variant call의 과정은 depth가 반반 쌓였다고 0/1로 찍히는건 아니고 variant caller의 알고리즘에 의해 call 됩니다 ^^;;;

 

예시를 하나 더 보죠..

 

chr21  25887701  T   C 의 포지션은 1/1 로 되어있습니다.

제가 말씀드린 논리대로 해석해보자면 .. ALT: C / ALT: C로 쌓여있다는 얘기군요.

실제로 AD를 보시면 36,3030 으로 REF가 36 ALT가 3030으로 쌓여있습니다.

가만보니,, REF가 있어도 1/1로 call이 되는 것을 확인하실 수 있습니다. 이런경우 많아요~ ..ㅋㅋ

 

 


그럼 genotype 언제 쓰나요?


우리는 실용적인 사람들이기에 genotype을 언제 쓰는지가 가장 궁금합니다.

제가 보여드리는 예는 그룹간 분석을 해보려고 합니다.

 

갑상선암 환자가 있다고 해보죠. 100명정도 모았습니다.

이 암환자들의 암세포를 시퀀싱 해보겠습니다.

그리고 컨트롤로 혈액을 시퀀싱 하겠습니다.

Group1: 암세포 100개 샘플

Group2: 혈액 100개 샘플

분석하여 VCF를 모아서 하나의 VCF로 call 하였다고 합시다.

 

그러면..

Group1에서 0/1, 1/1 처럼 0/0이 아닌 position들로만 filter 하고..

Group2에서 0/0인 position들로만 filter 하면..

 

암세포에서만 나타나는 변이들을 모을 수 있습니다!!

 

물론 실제 연구는 이보다도 더 많은 필터작업과 Normal-Tumor pair 분석과 같은 다른 분석들을 진행합니다.

포스팅을 할 기회가 있으면 Normal-Tumor 분석에 대해서도 남겨보도록 하겠습니다!

 

 

오늘은 VCF 파일의 GT, DP, AD와 Genotype에서 0/0, 0/1, 1/1 의 의미에 대해 알아보았습니다.

 

이번 포스팅에서 궁금하신점 또는 알고 싶으신 내용있으시면 언제든 댓글로 내용 남겨주세요~

 

그럼 다음에 만나요~

 

기부 버튼을 만들었습니다
단지 $1 의 작은 정성도 저에게는 큰 힘이 됩니다
기부해주신 분들을 기억하며
더 좋은 내용으로 보답해 드리겠습니다 :)
 
Donate 버튼은 paypal 결제로 paypal 계정이 없으시더라도
카드로도 기부 가능하십니다 :)
Use your credit card or bank account (where available). 옆의 continue 를 누르시면 됩니다
 
한주현 드림
 
 

 

 

 

 

 

반응형

댓글