본문 바로가기
생물정보학/생물정보학_연습문제

[VCF] 02. VCF 파일에서 SNP, InDel Count 하기

by HanJoohyun 2017. 4. 4.
반응형

안녕하세요


한주현입니다


생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 두 번째 시간입니다 


오늘은 VCF를 활용한 생물정보학 문제를 포스팅하겠습니다



문항) VCF파일에서 SNP, InDel count하기

VCF (Variant Calling Format) 파일은 텍스트 형식의 파일로 meta-information lines, Header, data lines 로 구성되어있습니다




VCF의 Data Line에서 4번째 컬럼과 5번째 컬럼인 REF와 ALT를 보겠습니다.


REF는 Reference base(s)로 hg19, hg38 과 같이 기준이 되는 서열에서 각 해당 position에서의 서열을 의미합니다.

ALT는 Alternate base(s)로 sequencer 에서 읽어낸 base가 REF 와 다를 경우 나타납니다.

예를 들어 위의 VCF 예제 그림에서 chr20 14370 에서 REF는 G, ALT는 A로 쓰여있습니다.


SNP(Single Nucleotide Polymorphism)은 VCF에서 1개의 base의 change로 나타납니다.

예를 들어 위의 VCF 예제 그림에서 chr20 14370 에서 REF는 G, ALT는 A로 쓰여있는 것 처럼 하나의 base가 하나의 base로 바뀐 경우 SNP라고 합니다


Insertion은 VCF파일에서 REF의 길이보다 ALT의 길이가 더 길게 표현합니다.

Deletion은 VCF파일에서 REF의 길이보다 ALT의 길이가 더 짧게 표현합니다.


SNP와 InDel은 아래 표와 같은 예시로 정리 할 수 있습니다.


Type

REF 

ALT 

 SNP

 INS

TA 

 DEL

ACT 


이번 문항에서는 VCF에서 SNP와 Insertion, Deletion의 개수를 세어 보겠습니다.

문항에 해당하는 VCF는 아래의 VCF를 사용하세요.

https://raw.githubusercontent.com/KennethJHan/Bioinformatics_smalltalk_Python50/master/sampleVCF.vcf



VCF에 대한 자세한 설명은 아래 링크를 참고하시기를 바랍니다.

https://samtools.github.io/hts-specs/VCFv4.2.pdf






정답)

SNP: 14

Insertion: 2

Deletion: 4




  문항에 의문사항이 있으시면 댓글로 말씀 부탁드리겠습니다


  그럼 다음 문항에서 만나요~



반응형

댓글