안녕하세요 한주현입니다.
오늘은 VCF 파일의 DP, AD, MQ 의 의미에 대해서 알아보겠습니다.
VCF파일은 Variant Calling Format 파일의 약자이며 전반적인 파일에 대한 소개는 이전 포스팅인
http://korbillgates.tistory.com/136 - VCF 파일 소개
를 참고해주세요 ㅎㅎ
오늘은 DP, AD, MQ의 의미에 대해 더 자세히 알아보겠습니다.
VCF 파일의 컬럼과 FORMAT 컬럼
VCF 파일을 살펴보면 아래와 같이 생겼습니다 ㅎㅎ;
데이터 라인은 아래와 같은 8개 컬럼이 있고
컬럼명 |
의미 |
설명 |
CHROM |
Chromosome |
Position의 chromosome 번호를 의미합니다. |
POS |
Position |
Reference 의 Position을 의미합니다. |
ID |
Identifier |
Variant의 identifier를 의미하며, 예를 들면 dbSNP의 정보가 rsID값으로 들어갑니다. |
REF |
Reference bases |
Reference 의 allele을 의미합니다. |
ALT |
Alternate bases |
Comma(,)로 구분된 non-reference alleles 를 의미합니다. |
QUAL |
Quality |
Phred-scaled quality score로 position에 REF/ALT polymorphism이 있을 확률을 의미합니다. |
FILTER |
Filter status |
PASS로 되어있으면 filter조건을 통과하였다는 의미이며, PASS되지 않았다면 filter조건이 여기에 써집니다. filter조건의 내용은 VCF파일의 윗부분인 Meta-info 라인에 있습니다. |
INFO |
Additional information |
추가적인 정보가 들어가며 <key>=<data> 형식으로 쓰입니다. 예를 들어 AA의 경우 Ancestral allele, DP의 경우 sample전체의 DP의 합과 같은 정보가 들어있습니다. |
9번째에 FORMAT 컬럼이 있는데
태그 |
의미 |
GT |
Position에 대한 샘플의 Genotype을 나타냅니다. 0/0 - homozygous reference 를 의미 0/1 - heterozygous 로 REF/ALT allele 이 있음을 의미 1/1 - homozygous alternate 를 의미 |
AD |
Unfiltered Allele Depth 를 의미합니다. comma로 구분되며 |
DP |
Filtered Depth를 의미합니다. |
PL |
가능한 Genotype의 "Normalized" Phred-scaled likelihoods 를 의미합니다. |
GQ |
Genotype Quality를 의미하며 Phred-scaled confidence로 GT가 맞을 확률에 대해 말해줍니다. |
MQ | RMSMappingQuality를 의미합니다. |
DP, AD, MQ의 의미?
VCF 파일의 포맷은 살펴보았고 DP, AD, MQ의 의미가 궁금합니다! ㅎㅎ
1. DP의 의미가 무엇인가요? Depth 인가요?
네 DP는 read depth 입니다.
그런데... VCF파일에는 두 가지 항목의 DP가 있습니다. ㄷㄷㄷ..
1) VCF 8번째 컬럼인 INFO 컬럼의 DP
##INFO=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth; some reads may have been filtered">
INFO 컬럼의 DP는 variant calling site의 read depth이며 filter되지 않은 read depth를 의미합니다. 만약 여러 샘플의 vcf 라면 전체 depth가 합쳐진 값이 이곳에 표기됩니다.
2) VCF 9번째 컬럼인 FORMAT 컬럼의 DP
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)">
FORMAT 컬럼의 DP는 각 개별 샘플의 depth를 의미합니다.
여기서 잠깐, INFO=<ID=DP, ... 이게 뭐죠?? 라고 생각하신다면..
아래 VCF 포맷의 구조를 살펴봅시다.
샾 두개로 시작하는 부분은 HEADER입니다 ㅎㅎ;
이렇게 HEADER에는 INFO=<ID=DP 처럼 KEY=VALUE 형태로
VCF 파일의 항목들을 적어놓습니다.
GVCF가 무엇인지 궁금하시다면 다음 링크를 참고해주세요
http://korbillgates.tistory.com/136
2. AD는 뭔가요?
AD는 Allelic Depth입니다. VCF에서는 Ref와 Alt allele이 순서대로 표기됩니다.
각 Allele은 comma 로 구분되어 Genotype 순서대로 쓰여있습니다.
ㅎㅎ 아래 예시를 보시면 무슨말인지 더 이해가 잘 갈겁니다.
예를 들어, Ref: G, Alt: A 인 position에서 GT:AD:DP 0/1:51,39:90 의 경우
GT(Genotype)가 0/1
AD(Allele Depth)가 51,39
DP(Depth)가 90 으로 나와있으며
이는 Genotype 0/1에 의해 Ref인 G가 51, Alt1 인 A가 39를 의미합니다.
다른 예로, Ref: A, Alt: C,G 인 position에서 GT:AD:DP:GQ:PL 1/2:51,39,20:110 의 경우
GT(Genotype)가 1/2
AD(Allele Depth)가 51,39,20
DP(Depth)가 110 으로 나와있으며
이는 Genotype 1/2에 의해 Alt1 인 C가 39, Alt2 인 G가 20을 의미합니다.
3. MQ는 뭔가요??
INFO=<ID=MQ,Number=1,Type=Float,Description="RMS Mapping Quality">
MQ는 Root Mean Square Mapping Quality입니다.
Variant가 Calling된 Site의 Read의 Quality값의 Root Square 평균을 계산하면 값이 나오는데 좋은 quality값이라면 60 근방이 나옵니다.
아래 그래프처럼 말이죠..
https://software.broadinstitute.org/gatk/documentation/article.php?id=6925
이 페이지의 RMSMappingQuality(MQ) 항목을 보시면 더 자세한 설명을 보실 수 있습니다 ㅎㅎ;;
오늘은 VCF의 DP, AD, MQ의 의미에 대해서 알아보았습니다
부디 여러분들께 도움이 되셨음 좋겠습니다 ㅎㅎ.
그럼 다음 시간에 만나요!
참고 링크:
# VCF Specification v4.2
http://samtools.github.io/hts-specs/VCFv4.2.pdf
# What is a VCF and how should I interpret it?
# DP
# AD
# MQ
https://software.broadinstitute.org/gatk/documentation/article.php?id=6925
댓글