안녕하세요 한주현입니다.
오늘은 GATK의 tool 종류 중 variant calling tool인
UnifiedGenotyper 와 HaplotypeCaller 의 차이점에 대해서 알아보겠습니다
최근에 아는 동생이 GATK의 UnifiedGenotyper가 GATK4 버전에서 없어졌다고 하여 그 이유에 대해서 물어왔습니다 ㅎㅎ;
일반적으로 실무에서는 GATK Best Practice 를 기반으로 만든 분석 파이프라인을 사용하는데 variant calling tool로는 UnifiedGenotyper가 아닌 HaplotypeCaller 를 사용하고 있습니다.
HaplotypeCaller는 UnifiedGenotyper보다 나중에 개발된 최신 tool로 SNP와 Indel을 동시에 calling 해줍니다.
UnifiedGenotyper는 SNP와 Indel을 calling 해주긴 합니다만 그 방식에 차이가 있습니다.
UnifiedGenotyper는 Locus basis로 variant calling 을 하는 것에 반하여
HaplotypeCaller는 region에서 variant의 낌새가 보이면 그 부분의 기존 mapping 된 정보를 무시하고 de novo assembly를 진행합니다.
이렇게 하면 기존 방식에서는 calling 하기 어려운 지역인 variant 가 몰려있는 지역에서 더 좋은 performance를 보여준다고 하네요
UnifiedGenotyper 와 HaplotypeCaller 둘 중에 어떤것을 사용해야 할까요?
앞선 문단에서도 HaplotypeCaller가 더 좋다고 말씀을 드렸습니다만,
다시 한 번 더, 권위에 입각한 ㅎㅎ;; 설득을 해보자면..
GATK tool 개발자이신 Geraldine Van Der Auwera 님께서 "Use HaplotypeCaller!" 라고 말씀해주셨습니다.
오오... 이 한마디로 모든것이 설명되었다.. 그럼 HaplotypeCaller 를 써야겠다....ㅋㅋ
곁들인 설명으로는 앞서 말했던 것 과 마찬가지로
HaplotypeCaller는 UnifiedGenotyper랑 SNP call 능력은 같으면서도 indel call 능력이 훨~ 씬 뛰어나다고 하네요..
아래가 GATK forum의 링크입니다 ㅎㅎ
오늘은 GATK의 variant calling tool인 UnifiedGenotyper와 HaplotypeCaller에 대해서 알아봤습니다.
부디 여러분들께 도움이 되셨음 좋겠습니다 ㅎㅎ.
그럼 다음 시간에 만나요!
참고 링크:
# UnifiedGenotyper - Tool Manual (GATK3.8)
# HaplotypeCaller - Tool Manual (GATK3.8)
# HaplotypeCaller - Tool Manual (GATK4)
# Should I use UnifiedGenotyper or HaplotypeCaller to call variants on my data?
'생물정보학 > Tools' 카테고리의 다른 글
[VCF] VCF 파일의 DP, AD, MQ 의 의미 (5) | 2018.03.18 |
---|---|
[GATK] VCF란, gVCF란, VCF와 gVCF의 차이점 - Variant Calling Format 설명, genomic VCF (0) | 2018.03.04 |
[GATK] GATK4 - Google Cloud - FireCloud 5달러 분석시대 (0) | 2018.02.26 |
UCSC blat 사용법 - command line blat stand alone 사용법 (1) | 2018.02.04 |
[vim] vimrc 설정 (0) | 2018.01.26 |
댓글