본문 바로가기
생물정보학/생물정보학_연습문제

[VCF] 03. VCF 파일에서 Variant 개수 count 하기

by HanJoohyun 2017. 4. 6.
반응형




안녕하세요


한주현입니다



생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 세 번째 시간입니다 


오늘은 VCF를 활용한 생물정보학 문제를 포스팅하겠습니다



문항) VCF 파일에서 Variant 개수 count 하기

  VCF (Variant Calling Format) 파일은 텍스트 형식의 파일로 meta-information lines, Header, data lines 로 구성되어있습니다




  이번 문항에서는 VCF에서 variant의 개수를 세어보겠습니다.

샾(#) 으로 시작하는 Meta-information 과 Header Line을 제외한 line의 개수를 세어보면 variants의 개수가 나오게 됩니다.



주의!


  위의 예시 VCF에서 세 번째 data line (chr20 1110696) 에서 5번째 컬럼인 ALT를 보겠습니다.

ALT는 Alternate base(s)로 sequencer에서 읽어낸 base가 REF와 다를 경우 나타납니다.

이 위치에서 ALT는 G, T로 나타나있습니다 이럴 경우는 두 개의 variant로 세어주셔야 합니다.



  아래 링크의 VCF에서 variants 들의 개수를 세어보세요.


https://raw.githubusercontent.com/KennethJHan/Bioinformatics_smalltalk_Python50/master/sampleVCF2.vcf



VCF에 대한 자세한 설명은 아래 링크를 참고하시기를 바랍니다.

https://samtools.github.io/hts-specs/VCFv4.2.pdf







정답)

24




문항에 의문사항이 있으시면 댓글로 말씀 부탁드리겠습니다.


그럼 다음 문항에서 만나요~




반응형

댓글