반응형
안녕하세요 한주현입니다.
오늘은 GATK의 툴 중 하나인 DepthOfCoverage 에 대해 알아보고,
Soft Clip을 처리하는 방식과 DepthOfCoverage 의 command line에 대해 알아보겠습니다.
Depth Of Coverage 란?
DepthOfCoverage 는 GATK 의 Tool 중의 하나로, 말 그대로 Coverage의 Depth를 계산해줍니다.
아래 그림은 Reference genome에 mapping 된 read들을 표현한 그림입니다.
100bp 가 되는 12개의 read들이 reference sequence에 맞게 mapping 된것인데요,
왼쪽의 covered region의 길이가 350bp라고 해봅시다.
mapping된 read는 총 1,200bp 이며,
계산식에 따라 평균 coverage는 약 3.4x 정도 됩니다 ㅎㅎ..
즉, chrN:12345-12695 의 350bp 구간에 약 3.4번 정도 cover 되었음을 의미합니다
GATK Depth Of Coverage
GATK 에서 Soft clip은 read의 depth 로 셀까요???
궁금하면 해보면 됩니다 ㅋㅋ..
그래서 저는 아래와 같은 세 개의 read를 포함한 bam을 만들어서
GATK DepthOfCoverage 분석을 해보았습니다.
Read
101M
GTTAATGACAACTTCAAATGTTCTATGAGAAACACGCACAGTTCTCCTCAGAGAAGGGCATTTGGGCTGCTGCATTACCTACTGGCGTTAGTTCCAGATCT
88M13S
GTTAATGACCACTTCAAATGATCTATGAGAAACACGCACAGCTCTCCTCAGAAAACAGAATTACGGCTGCTGCATTCCCTACTGGCGTCAGTTACAGCTCC
101M
GTTAATGACAACTTCAAATGTTCTATGAGAAACACGCACAGTTCTCCTCAGAGAAGGGCATTTGGGCTGCTGCATTACCTACTGGCGTTAGTTCCAGATCT
result.sample_interval_summary
Target total_coverage average_coverage
chr1:1718600-1718900 290 0.96
만약 soft clip을 세었다면 total_coverage가 303 이 나왔겠지만,
13base의 soft clip 이 있기에 제외한 290bp 의 total_coverage가 나왔습니다 ㅎㅎ..
GATK DepthOfCoverage 분석 방법
그냥 끝내기는 아쉬우니.. ㅋㅋ
GATK DepthOfCoverage 분석 방법에 대해 알아보겠습니다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | #!/bin/bash if [ $# -ne 1 ];then echo "#usage: sh $0 <bam>" exit fi inbam=$1 gatk=GATK.jar ref=ucsc.hg19.fasta ${java} -jar ${gatk} \ -T DepthOfCoverage \ -R ${ref} \ -o result \ -I ${inbam} \ -L interval.list ## interval.list 는 파일 내부에 # chr1:12345-12350 # chr2:67890-67900 # # 처럼 써주심 됩니다 | cs |
이렇게 실행해주심 됩니다 ㅎㅎㅎ
오늘은 Depth of coverage 의 개념과 GATK Depth Of Coverage 의 soft clip 처리,
Depth of coverage 분석 방법에 대해 알아보았습니다
여러분께 도움이 되셨으면 좋겠네요 :)
그럼 다음에 또 만나요~~
- 참고 URL
# GATK DepthOfCoverage Document
반응형
'생물정보학 > Tools' 카테고리의 다른 글
[fastqe] fastqe , fastq 파일의 quality를 이모티콘으로! , fastq 파일이란? (2) | 2018.07.29 |
---|---|
[GATK] pileup 파일 얻기 - bam 에서 쌓인 read base 얻기 - gatk pileup 분석 (0) | 2018.06.21 |
[GATK] VCF index 파일 생성 3가지 방법, VCF 인덱스 만들기 - GATK3, GATK4, bgzip, tabix (3) | 2018.04.10 |
[VCF] VCF 파일의 DP, AD, MQ 의 의미 (5) | 2018.03.18 |
[GATK] VCF란, gVCF란, VCF와 gVCF의 차이점 - Variant Calling Format 설명, genomic VCF (0) | 2018.03.04 |
댓글